下一代数据科学家

最近，每个人都想成为数据科学家。很多媒体宣称，数据科学家被认为是“最热门”的工作。然而，随着数据科学的技术基础变得越来越自动化，以及对数据科学家领域知识的需求的增加，几乎可以肯定的是，数据科学家的角色或任何使用这些技能来推动分析或行动的数学家或统计学家最终将是短暂的。

历史简介

对于任何新技术前沿意味着，你必须保持敏捷。这是很多进入数据科学领域的人的现状。12年前，“数据科学家”一词几乎没有进入技术词典。有些人使用统计方法来分析人口动态，其中大多数人认为自己是研究人员，或者可能是数据分析师。

统计和统计建模在计算领域有着悠久的历史。例如，Fortran是最早包含统计库的计算机语言之一。然而，直到1990年代，Robert Gentleman和Ross Ihaka（他们自称为 R&R）才开发并提供一种开源统计编程语言。没过多久，这种语言就被命名为R，它的1.0版本也在2000年发布。

在2009年，AQR Capital Management发布了自己的Python语言开源统计扩展，其中包含名为Pandas的库，Pandas是一个由Panel Data Statistics组成的混合术语。Pandas旨在与NumPy库一起进行高精度数字处理，并且通过这两个库，越来越多的Python程序员开始第一次接触统计编程。

没有什么比一场宗教战争更能刺激语言的快速发展了。没过多久，R爱好者和Pandas爱好者就开始在博客文章中争论，试图证明各自的语言是处理统计数据的更好语言，R爱好者强调统计分析，而Python程序员开始专注于深度矩阵运算，以便更好地解决神经网络问题。

与此同时，在此之前主要专注于使用Microsoft Excel或商业智能工具构建复杂模型的业务分析师开始注意到正在发生的事情，他们的经理也是如此。此外，Hadoop的兴起刺激了大数据湖和仓库的发展，虽然这有助于将数据移动到集中存储库中，但如何处理这些数据的问题成为一个重要的问题。

最后，（主要用于支持自动驾驶汽车的）图形处理单元(GPU)的进步开始刺激两个不同的领域：神经网络编程和语义网络，两者都严重依赖于称为网络图的概念。虽然图形（例如数据科学）已经存在很长时间，但它们需要处理器能力和多个分布式管道才能有效地工作。到2015年，这些事情开始融合在一起。

数据科学家模糊的未来

那么，现在的数据科学家是什么？如果你列出数据科学职位的所有属性，那么你会发现，这些人既需要是超级天才，又需要以比普通人快10倍的速度工作。正如有很多不同风格的程序员一样，随着专业化需求的出现，我们会看到越来越多的数据科学家角色。

为了更好地理解这些区别，我们有必要先看看数据科学家和程序员之间的区别。这两者都使用计算机语言以及特定的辅助工具，例如命令行界面和基于代码的编辑器（例如 Microsoft Visual Studio Code、R-Studio、Python的IDLE或Eclipse IDE）。一般来说，区别在于程序员的目标是创建应用程序，而数据科学家的目标是创建模型。例如，一个人可能会编写一个应用程序来显示一段时间内的天气模式，这就是程序员的角色。但是，气象学家将使用该工具来预测特定模式在未来天气中的表现方式。

工具构建者可能是某种工程师，而工具用户是分析师或数据科学家。这通常也意味着通常分配给数据科学家的某些角色（例如创建可视化）很可能不是由分析师而是由工程师担任，或者在某些情况下由设计师担任。设计师（也经常被称为架构师）可以被认为是凳子的第三条腿，因为他们既不部署也不使用数据，而是以某种方式塑造数据的表达。还有一个更重要的角色：数据战略家，主要负责管理企业如何利用数据，使三足凳变成一个更加稳定的四足凳。

通过这四个“元角色”，我们可以看到数据科学本身将如何发展。首先，“数据科学家”的正式角色将（并且已经开始）消失。值得理解的是，大多数数据科学家实际上是主题专家，而不是“专业”编码员。他们对自己的专业领域有着深刻的理解，从人口统计到政治分析，从科学研究到商业分析，并且通常将数据科学视为一种工具集而不是一种专业。

这意味着成为主题专家所涉及的培训将变得更具技术性，即使是在看似非技术领域。营销就是很好的例子。就在十年前，营销还被认为是非技术领域。

然而，越来越多的营销人员希望能够熟练掌握统计概念和数据建模工具。招聘营销总监的公司不一定会雇用更多的统计员。相反，他们正在寻找日益先进的软件工具，搭载在电子表格或类似分析技术之上。

此外，人工智能系统将越来越多地用于确定给定问题集所需的最佳潜在分析管道，当确定后，它将构建模型供市场分析师检查。随着时间的推移，分析师会更加熟悉处理数据的整体方法，并且可以更快地开发和运行此类模型。这意味着对统计通才或数据科学家的需求减少，但同时特定领域的技术分析师的需求增加。

类似的过程正在影响数据工程师，尽管原因有所不同。SQL时代正在结束，让位给图形时代。这并不是说，SQL本身可能会消失，而是越来越多的后端数据系统开始使用图形，而SQL只是可能很多不同的信息访问方式之一。这意味着同一个数据系统可以保存文档和数据，而且可以动态配置自身以找到最佳索引优化。

这样的系统也可能是联合的，这意味着给定的查询可以同时访问多个不同的数据存储，同时这些数据可以配置为输出–以外部进程当时需要的任何格式，很可能无需人工调解。

在这种演变过程中，协调由数据目录管理，它识别和提供对数据的访问，以概念性的方式，而非特定于部署的方式。然后人工智能系统（可能由某种形式的语义处理促进）将负责将人类对数据的请求转换为查询和相应的过滤器以进行展示和可视化。在这种情况下，数据工程师的角色可能会越来越多地转向构建工具，以构建管道和过滤器，尤其是在可视化和实例化领域。

从数学家到设计师

在可视化领域发生了一场悄然的革命，创建“技术艺术”（图表、演示、图形和图表）的过程导致了图表语言的部署，而图表语言又由数据系统创建。我们已经发展到下一阶段，即动态演示，它是一种演示（可能是HTML生态系统的某种形式），它会随着外部数据的变化而改变自己。

这意味着数据故事讲述者也可能会从技术专家转变为设计师，随着基于观众调整演示文稿，这可能实时进行。随着媒体变得更具可替代性，并且随着GPU变得更快，此类演示的制作价值将类似于几年前的大片。

同样，实例化对于打印来说是花哨的词，但需要注意的是，这种打印远远超出了书籍的范畴，还扩展到了实体商品的3D打印。一段时间以来，一直有一个概念被称为Digital Twin（数字孪生），其中物理对象创建数据路径来代表它们。

然而，这个过程也很可能会走另一条路，即实体商品被虚拟设计，然后3D打印出来，可能在最终产品中嵌入收发器，以与虚拟孪生通信。到2030年，这种实例化很可能会变得常见，并与围绕分布式账本系统构建的智能合约相关联。

最终，数据科学家最有形的产品是模型。当你部署模型，你实际上是在发布它，将现实世界的数据转换为有形动作，可以控制机器人流程或为人类流程提供指导，后者的范围越来越多地落入前者的领域。例如，获得贷款过去完全是人为的决定。然而，对于很多银行来说，获得贷款越来越不是由银行家决定，而是由数据科学家创建的模型决定，该模型最终会生成建议，通常带有“分析”，表明哪些因素会影响该决定。当然，银行家可以推翻该建议，但必须证明这样做的决定是合理的。

这种转变的结果是，虽然数据科学家的头衔可能会消失，但该角色本身却不会消失。数据科学家将转变为特定领域的主题专家，他使用该领域的知识对其进行有效建模，然后由模型驱动后续的建议或行动。随着工具处理更高级别的抽象，该角色将变得更加面向设计，从底层数学通过代码转移到管道和过滤器，最后由人工智能根据建模者提出的请求直接组装。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号