一文让你了解数据专家的工作流程

1,597 阅读6分钟

虽然数据的价值已经被广泛接受,但对于大多数人来讲,数据的具体应用过程,还是非常神秘。哪怕是一些数据从业者,也很难说得明白。所以,很多公司虽然喊着数据驱动的口号,但却没有真正体现出数据的价值。

数据、业务、算法是三位一体的闭环体系,必须将数据思维扎实地嵌入到业务之中,才能挖掘出数据所蕴含的趋势和规律。

三位一体

我希望通过本文和大家聊一聊,数据是怎么样一步一步应用到业务之中的,帮助大家了解数据专家的工作流程。

定义问题

并不是所有的问题都可以用数据解决,很多问题看上去好像是数据问题,但实际情况是数据所能起到的作用微乎其微,而又有很多问题看上去不能用数据解决,但经过抽象后,数据便可以为这些问题创造价值。

很多做内容推荐的平台,都希望找到“好”的内容,然而脱离用户行动,仅从内容数据本身去评判质量,往往不能满足要求,因为“好”的概念过于宽泛,没有一个明确的标准。

我们可以对问题进行抽象,将“找到好的内容”改成“找到完成率高的内容”。这样,问题就有了明确的、可量化的目标,这符合机器处理问题的方式。

机器与人的思维方式是不同的,人是网状思维,可以发散式地解决问题,而机器是线性的,每一次决策,都需要有一个明确的、可量化的目标。

我们需要将人所面对的问题转化成机器能够理解的形式,才能让机器从数据中学习到解决问题的方法。

与此同时,看似类同的目标,从机器的角度,会找到完全不同的结果。所以,在定义问题的目标时,要非常严谨,才能得到预期的效果。

比如:平台想要提高用户的留存率,但目标却是用户的点击率,貌似效果一样,可最终结果会差别很大。

准备数据

在实际工作中,80%以上的时间都是在准备数据,而且它是流程中最重要的技术环节,这就好比“巧妇难为无米之炊”。

然而,什么样的数据才是机器所需要的数据,才是高质量的数据呢?

大家可能认为数据量越大就越好了,但实际上是数据越全面越好。就好像,你喝再多的矿泉水,也不可能知道可乐的味道一样。

在面对一个具体的问题时,我们需要判断描述问题的数据是否足够全面,包括问题的不同侧面的数据。同时,我们还需要调整数据中不同样本的比例,以保证机器能够充分地学习。

在统计学中,只有样本均匀时,统计推断的结果才是合理的。

所以,很多时候需要人工标注的数据,来增强机器的学习能力。产品中的点赞、收藏等功能,除了用户侧的需求外,还包含了数据的标注需求。

特征工程

人可以很轻松的处理非结构化的数据,但机器却只能处理结构化的数据。如果描述问题的数据不能特征化(数据化),那么机器便无法学习到任何的规律。

在特征工程方面,非常考验数据专家的判断力,而其判断力来自于大量的实战经验和对业务的理解程度。

因此,一个好的数据专家,一定是对业务十分熟悉的,能够建立从原始数据到特征数据的技术体系,可以将原有业务经验充分覆盖,甚至超越原有经验的局限。

不仅需要对数据进行清洗,关联和整理,更需要捕捉到原始数据背后的深层数据。

深层数据的3个提炼方式:

  1. 时间,通过数据在不同时间维度上的变化,提炼新数据。
  2. 场景,通过结合不同场景下数据的变化,提炼新数据。
  3. 交叉,通过数据彼此之间的交叉对比,提炼新数据。

很多时候,当大量弱数据彼此组合关联然后衍生为新数据时,这些合成数据便可以成为解决问题的关键数据。

算法调优

真实的数据往往极其复杂,需要简单强壮的算法去征服它们。所谓好算法,就是不浪费数据,能最大化数据价值的算法,是基于不同数据结构而发挥数据价值的。

数据是解决问题的材料,算法是解决问题的工具。主要有三大类的算法方向:

  1. 规则主义:不对数据做出任何假设,而是直接从现实数据中提炼一系列决策规则,并假设这些决策规则适用于一切新数据。
  2. 频率主义:假设需要学习的数据服从某类理想的统计分布,并利用数学技术从理想数据中推断规律。
  3. 贝叶斯主义:它们不从数据中做任何推理,而是找到不同案例之间的关联关系。

而想要决定到底是哪种算法效果比较好,需要根据实验效果设定自动挑选算法和自动调参的算法,让机器自动选择当前数据最适合的算法和工具。

这就好比,理解发动机的原理,并不能帮助你拥有更高超的开车技巧,还需要实践才能得到最优的结果。

如果说机器学习算法是强大的发动机,那么这个算法发动机需要一个简单易用的方向盘,可视化便是机器学习技术的方向盘。

只有将各种数值可视化呈现出来,才能对算法进行调优。

总结

有经验的数据专家可以凭借业务经验,直觉和逻辑推理提炼出大量具有预测意义的数据特征,并且快速找到解决问题的算法。

所以,这也就解释了为什么从事数据方向的工程师,越老越值钱的原因。

最后,安利大家一本掘金小册《深入理解NLP的中文分词:从原理到实践》,让你从零掌握中文分词技术,踏入NLP的大门。

如果因为以上内容对你有所帮助,希望你能够点赞、评论、转发,多谢多谢!