数据科学团队构建指南:多面手是成功关键

日期: 2013-05-27 作者:Jack Vaughan翻译:冯昀辉 来源:TechTarget中国

根据某数据科学团队主管的观点,锤炼团队的过程比给直接聘用数据科学家硬填充进来更重要。这么说是有道理的,因为对“数据科学家”这一概念的定义仍在不断扩充,甚至已经到没有任何一个人可以胜任的地步了。

  在对数据科学家岗位描述的各种观点中,已经包括有R程序员、Scala开发者、Hadoop高手、数据质量专家、特殊领域专家、算法建模专家等等。按照Dan Mallinger的观点,真正需要的是关注于整个数据科学流程,而不只是预期一个人承担整个角色。Dan Mallinger是美国Think Big分析公司的数据科学团队领导人。

数据科学团队构建指南:多面手是成功关键

  Mallinger在最近的BigData TechCon大会上表示,数据科学家可能是记忆中最近几年定义最糟糕的工作职位。虽然不好界定,但也并没有阻碍数据科学家待遇持续走高的行情。数据科学家的价值可能隐藏在大数据工作中。

  他说:“像Hadoop一样,从计算机的角度来看是廉价的,但是从人力资源的角度来看,它是很昂贵的。我们需要比较广泛的人员和技能做新式的大数据量分析。”

  在他的实践中,Mallinger已经找到了如何从独立的明星数据科学家到让他服务于团队的方法。

  Mallinger表示,他曾经见过最好的数据科学团队之一是“一个跨职能群体”,包括业务分析师和数据质量工程师,还有产品经理,他们合作的目的是把分析转化为业务价值。

  那么这个团队的成员都有何共同点呢?Mallinger说:“他们都对R语言感兴趣。”这是一种流行的统计编程语言。在许多情况下,由于数据分析需求的改变,包括数据量和数据种类的不断变化,也在推动数据科学团队不断填充新的技能。

  Mallinger说:“大数据正在从概念转化为商业案例,这些案例与传统是完全不同的,包括许多种工作。人们之前并没有考虑到。”

  轻博客鼻祖Tumblr的数据科学家Adam Laiacano着重强调了大数据的多样性,他把大数据描述为“以前从来没有过的数据,而且极具价值”。

  他把这类数据称为“废气”,表示它是一种业务运营的副产品。例如,这些数据是非结构化的和半结构化的,由用户的web活动生成。Laiacano把数据科学家的工作比喻为涡轮增压器,可以使用“废气”提高进入活塞的空气量,进而增加马力。

  Laiacano说数据科学专业人士应该努力确保大数据得到使用,而不只是收集。如果没有人能真正使用大数据就说明大数据项目已经走错了路。而大数据的第一个用户应该是数据分析团队成员。

  他说:“你就是第一位用户。如果你自己都不用,那这项目也该结束了。对于大数据项目,人们应该首先找到对他们自己有用的数据进行研究,然后再看是否对组织内的业务用户也有用。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐