阅读 0

如何成为一个数据科学全能选手(三面手)?

全文共3896字,预计学习时长12分钟

图源:Unsplash

迪士尼后妈茶话会的视频之前在票圈火爆了一段时间,灰姑娘里的后妈,白雪公主里的王后,长发公主里的女巫齐聚一桌,以说唱的方式吐槽心中的不满,歌词鬼畜,节奏魔性,旋律洗脑,剧情+演技+唱歌的表现形式让观众耳目一新,在脑海里久久挥之不去。


前几天晚上,小芯在看《闪电侠》,正好又看到了《闪电侠》和《女超人》的音乐联动集“二重奏”,这集里闪电侠(格兰特·古斯汀)和女超人(梅丽莎·贝诺伊斯特)被困在音乐剧里,必须靠唱歌跳舞才能逃脱。


古斯汀和贝诺瓦(以及剧里的许多演员)都非常多才多艺,唱歌,跳舞,演戏,皆不在话下,显然正因这一事实才使剧情成为可能。


后妈、闪电侠、女超人他们大概就是传说中的“全能选手”。更准确的来说,应该称之为“三面手”,即精通三项关键的需求技能,从而创造出令人难以置信的就业前景的人。这在演艺圈并不少见。


但这让我不禁陷入沉思。如果表演艺术中,“三面手”代表唱歌、跳舞和表演俱佳的人,那么数据科学中的三面手是什么样的?怎样才能成为这样的人呢?


数据科学家最重要的三项技能


为了找到问题的答案,我在招聘网站中找到在2019年4月22日至2019年5月5日期间发布的100个数据科学招聘广告,它们分布在五个国家(中国、澳大利亚、加拿大、英国和美国)。


这些招聘广告被选来用以代表雇主类型、规模、行业和工作级别等广泛领域,而非纯粹的管理角色。


从这些招聘广告中,我逐一提取出了关于技能的详细信息,这些技能被列为应聘标准或职位的日常职责,而后根据它们出现在招聘广告中的比例,确定了前20项最需要的数据科学技能。


如下图所示:

[补充一点,在创建此列表时,我关注的是一般技能,而不是特定的编程语言或技术,因此并未提及诸如R、Python和Hadoop等专业技能。]


这些技能大致可分为三类:


· 建模和统计:包括机器学习、统计建模和模型部署;

· 数据工程(编程):包括数据整理、数据库使用和分布式计算(如果在分析中包含编程语言,也会将其列出);以及

· 沟通能力和专业知识:包括提供见解、行业知识以及对基层员工的领导和指导能力。


这三个类别的关系与数据科学技能集的经典韦恩图(其中一个版本如下)中显示的三个类别大体一致。

然而,在我们的版本中:


· 扩大“数学与统计”的范畴以囊括所有类型的建模(包括机器学习,通常被认为介于统计学和计算机科学之间),以及整个端到端建模过程,直至部署;

· 将“编程”替换为与软件或数据工程关联更紧密的类别;

· 拓宽“领域知识”范畴,将其他对数据科学成功至关重要的一些软技能也包括在内。


新版本的图表如下:


基于此,可以认为,数据科学领域的三面手,需擅长数据工程和编程、精通建模和统计以及掌握沟通能力和专业知识。


因此,要成为数据科学的三面手,就必须在以上方面培养技能。


假设你已经对机器学习和编程有了一个基础的掌握,你可以集中精力去发展以下六项技能,以证明你能拿到“三面手”的称号:


建模与统计


· 统计建模

· 模型部署

· 数据库使用


数据工程与编程及通信工程


· 数据洞察力

· 领导和指导基层团队成员

· 沟通能力


六项技能逐一详细分析


技能1:领导和指导基层团队成员


对于处于初级数据科学职位的工作者来说,能够领导和指导基层团队成员并不是那么重要。毕竟,在这个位置上,您要接受团队其他成员指导,而不是去指导他们。


然而,如果你希望有朝一日能登上数据科学的阶梯,成为高级/首席数据科学家,甚至是数据科学团队的管理者,那么,培养领导能力和指导技能,宜早不宜迟。


从这个角度来看,虽然在所考虑的初级数据科学工作者招聘广告中,只有6.7%提到能够领导/指导基层团队成员,但在中级数据科学岗位的招聘广告中,这一比例为18.2%,而在高级数据科学岗位的招聘广告中,为58.5%。


但领导和指导团队不应该是团队管理者的职责吗?


好吧,通常数据科学团队管理者本身并不是数据科学家,因此,培训更多基层团队成员的任务必然落在数据科学团队中更高级的成员身上。


此外,管理者通常都非常忙碌,因此他们需要高级团队成员的帮助才能完成所有工作。也就是说,更高级的团队成员指导初级成员,这样管理者就可以专注于指导高级团队成员。


主动参与团队任务。对于那些自愿帮助团队其他成员并承担任何领导责任的人来说,无论多么微不足道的小事,都会有好的结果。

图源:Unsplash

技能2:数据洞察力


每当我向我的一位前老板提交工作报告时,他问的第一个问题一直都是“那又怎样?”


为什么他需要关心我刚才摆在他面前的工作报告?这里面有什么可以让公司或客户受益的吗?我刚刚完成的工作有什么意义?


回答“那又怎样”是找寻见解的全部内容,也是数据科学家可以为他们的雇主创造更多价值的地方(从长远来看,如果你想保住你的工作,这一点很重要)。


如果你对一个公司或一个行业还不熟悉,那么找到见解就很有挑战性。这就是行业知识(雇主重视的另一项技能)的重要之处。


通过与该行业的从业者交谈,或只是开展一般性研究来花时间了解你所处的行业(或感兴趣的行业),你的洞察力将会得到提升,工作价值也会随之提升。


技能3:(不同寻常的)沟通能力


众所周知,要想成为一名成功的数据科学家,必须能够将工作成果用书面形式表达出来,并呈现给其他人。然而,这只是沟通的一个方面。


沟通是双向的。这不只是聊天,同时也是倾听并领悟他人所言的过程。


当被分配任务时,你需要和分配任务的人一起工作,以确切地了解他们希望你做什么。这在一定程度上需要倾听的能力,但也涉及到提出正确的问题,以确定对方口中想要的确实是解决问题所需要的(而通常不是这样)。


如果你能把他们真正需要的东西,而不仅仅是他们口中提到想要的东西交给他们,这将对你名声的提升大有裨益。


沟通也涉及到影响他人。例如,你也许需要能够影响他人根据你的分析结果来做出正确的决定。


数据科学家坐在管理层的位子,这并不稀奇,但如果你在其位却不能影响管理层的决策,那你可能无法登上管理层的位置。


如果你像我一样,你就永远不能像梅丽莎·贝诺瓦(MelissaBenoist)或格兰特·古斯汀(GrantGustin)那样唱歌跳舞(但如果能做到岂不是更好吗?).


技能4:模型部署


每一位称职的数据科学家都知道如何建立一个模型(无论好坏)。但在建好后怎么处理呢?


当然,您不希望将代码交给受众(他们可能只是觉得Python是一种爬行动物,R是字母表的第18个字母)并让他们来继续运行它吧?您需要能够部署自己建立的模型。


模型部署在不同的情境中意义不同,很遗憾,大多数数据科学学位课程和慕课(MOOC)都很少教授此类课程。


在某些情况下,部署可能仅仅意味着洞察模型,并使用洞察结果生成报告。


在另一些情况下,部署可能意味着开发一个前端/应用(例如,使用Flask或Shiny),由此其他人就可以不必接触代码,直接运行模型。


在第三种情况下,部署可能涉及将代码转换为R或Python包,并将其上载到CRAN或PyPi,以方便其他人使用。


了解这一步骤,并学习一些其他方法,由电脑办公转向面对面办公,这将集中你的注意力,避免做无用功。


技能5:统计建模


许多数据科学家看到数据建模时,会立刻想到在大多数机器学习课程中会教授的监督学习算法的集合。然而,除了这些算法之外,统计学还包含许多技术,这些技术适合应用于一些最常见的数据类型,但许多数据科学家似乎完全不知道这些技术。


其中一些示例如下:

图源:Unsplash

· 地理空间分析:与时间序列分析类似,地理空间分析技术适用于基于位置的数据(例如不同位置的降雨量测量),并考虑了地理上的相近数据点之间的相关性。

· 广义线性模型:这些模型是标准线性回归模型的推广,可应用于标准回归模型基础假设不成立的情况。例如,出现偏斜数据与计数数据的情况。

能够将这些技术中的任何几项加深,可以极大地拓宽所处理问题的范围。


技能6:数据库使用


如果你工作的公司(或想去的公司)有足量的数据(如果他们雇佣了数据科学家,他们也理应有),那么他们就不会把这些数据存储在csv文件或Excel电子表格中,而是保存在某种数据库里。


这意味着数据科学家需要能够从数据库中提取数据。


最常见的数据库类型仍然是传统的关系数据库,其将数据存储在相关表集合的行和列中。

如果招聘广告将SQL技能列为应聘标准之一,那么您就能确保入职后将使用关系数据库,因为SQL是关系数据库的语言。


您不必学习关于关系数据库的所有知识。毕竟,您是个数据科学家,而不是数据库管理员。您只需了解连接(内连、外连、左连和右连)、键(主键和外键)的基础知识以及足够的SQL语句来合并和过滤一组表,就已足够了。

图源:Unsplash

然而,即使你只从上文提到的三个类别的每一个中选择一项技能,并且每周只花几个小时来培养它们,你也能很快开始建立属于自己的令人敬畏的技能集。它将使你成为数据科学世界的三面手。


拥有这些技能,也许不能让你成为女超人或闪电侠,但绝对能让你变强(不变秃),成为属于自己的超人。

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”


(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)



关注下面的标签,发现更多相似文章
评论