回顾·数据分析的势道术

519 阅读17分钟

本文根据网易数据分析高级总监贺志老师在DataFun课堂第1期所分享的《数据分析之势、道、术》编辑整理而成,在未改变原意的基础上稍做修改。

首先讲一下为什么今天选择这样一个分享题目,这跟我以前工作有关,先前主要是咨询,也做过数据分析需求。有一个疑问,我们用相同工具、技术为什么有的项目成功有的项目失败,这种非技术因素到底是什么?最后去甲方工作,多年工作总结影响因素总结为数据分析的“势”和“道”。从我的理解来看数据分析不应该是一门技术应该是一门艺术,就如同画画,同样的技术不同人画出来是不一样的。数据分析的一些硬性技术谁学到手都是一样的,但是人对数据分析的理解和软性条件不一样(悟性)决定做数据分析的一个高度。纯粹技术占比在数据分析里面很低,比如有的数据分析师只会excel,但是并不意味着他做不好数据分析。由于“势”和“道”看起来有点虚,分享从“术”开始,先讲一个案例。

下面这个案例其实是一个面试题,我问过很多面试数据分析师的候选人。“假设某个旅游热门景点的负责人,面临的问题是由于假期人群拥挤造成的糟糕体验,需求:如何在不显著降低收入的前提下,改善游客体验”问题抛出去后,很多数据分析师基于环境的理解,比如节流,节前不要疯狂的宣传或者延长营业时间等。完全从答案来讲并不算错,但是我想知道的是你的答案是怎样出来的,你的思路从哪里来的?所以我给出的建议是:业务知识很重要,但是还有很多其他的知识也很重要。从这个案例来讲业务知识并不复杂,如果数据分析员只依赖业务,你永远不如业务人员理解深,除了业务之外还有其他的思路和方法,这就是后面要分享的东西。

首先要确定分析的目的,目的是定性还是定量,从上面的案例看这个问题不是定量的,因为没有说体验要提升多少。“不显著降低收入”也没提降低多少,我们将这个问题重新定义下“在不降低收入的情况下,提升体验”。这里面关键就是提升体验,需要定义一下什么是 “体验”,这里给出一个数学规范表达:某时刻的体验为某一时刻单位面积内的景点的人数(公式见下图),ET代表体验,QT代表人数。QT这个是需要我们统计的,下面这个公式来确定景点人数It为t时刻流入量,Ot为t时刻流出量。其实在这个阶段就是确定目标,而确定目标需要有非常规范、严格的表达而不是靠嘴去说,你的表达必须要真是的数字算出来。

设定目标后,接下来就是分析,公式中,只有三个变量,而且A是不变的。解决方案之一就是保持A不变,降低QT,还有就是保持I不变,提升O,还有就是降低I,O同时也会降低,也会导致收入的降低。我们的目标是不明显降低收入情况下提升体验,这种方式肯定会降低收入,但是降低幅度有多大后续会讨论,可以通过其他方式来量化。

上面是数学表达式,其实还是要看你的业务是什么。解决方案对应上面两个方案,首先第一个方案,提升O就是:保持单位时间内流入量不变的情况下,提升流出量,即提升流速。如何提升人群流动速率,A.可以合理规划游览路线,设置单行线,如公交系统在路堵情况下会设置单行线;B.就是合理设计道路及浏览区的布局。路堵通常是游玩地方和行走地方太交叉,将两者分开使其互不交叉。第二个就是降低单位时间内的流入量。A.就是强制性限流,比如地铁站单位时间进去的人数不能超过多少人,但是确实会降低收入;B.换一个思路就是提升门票价格来限流,这个是有可能降低收入,因为门票涨了,人数少了,收入有可能减少也有可能增加。A和B就是对应如何降低流入量,这个就对应前面数学表达式推导出两个数学解决方案,再从两个数学解决方案推导出四条业务上的解决方案,这是我们整个解决业务的方式。

但是一般情况下不容易过关,你业务提出的解决方案在实际上都有一定的困难。比如重新设计道路,投入很大,而且仅仅是高峰期存在体验差,另一个提升门票有可能会降低收入。提出的问题并不能解决所有问题,所以可以考虑只规划某些道路或者只在某些时段限流。其实解决方案还是从数学公式上做文章,需要引入新的维度,一个维度是对应景区的地域,用L表示,第二个就是时间段,是特定的时段而非时刻。引入两个新的变量,一个是地点,将大景点分成不同的小景点,先前考虑8-12点时间段,但是并不是8-12点所有时间都是拥挤的,因此将这四个小时再进行拆解。公式可以表达成如下所示,因此我只关心高峰时的体验,就是那些比较拥堵的景点。

这样就会有新的解决方案:(1)只针对拥堵严重的某些地段进行重新规划,(2)仅针对拥堵严重的某些地段,采用投入比较少的方式,比如用人力解决,(3)门票分为高峰和非高峰。仅针对高峰期提价,比如10点到2点提价;非高峰期降低价格,在十点之前或两点之后可以降低价格;这样去削平高峰和低谷,这就是在引入新的维度后新的解决方案。到这里这个案例讲解完,回顾一下解决思路就是将一个业务问题用一个数学模型来表示。转变为数学公式,引入三个变量,每一个变量都和你的求解目标相关,有的成正向有的是成反向关系,合理调整变量,针对流入流出,如何降低人员流入和增加人员流出,依据公式思路会很清晰,你的思路会限定在一定框架里不会东窜西跳。

解决方案提出来了,业务方面一定会执行么?即使解决方案是合理的,业务方面也不是每次都按你的建议去执行,这就是数据分析的“势”。我的理解就是数据环境以及数据分析内在驱动力,环境这个问题不是一个数据分析师能改变的了的,这个我主要从行业环境来解释,行业环境包括:第一个是行业的规模,市场价值有多大;第二个是它的业务变化(业务是不是经常快速变化或者是非常稳定);第三点是外部竞争,这一点也是非常重要的,你的行业是不是面临着剧烈的竞争,还是你是行业老大地位稳固。举几个例子说明一下,比如电商现在规模已经非常大,增长很迅速,电商要满足用户的需求,但是用户的需求是千变万化的,一个用户不同时间需求是不样的,不同地域、不同用户画像、圈层需求是不一样的,所以一个企业面对的群体是多种多样的,它就要满足这种需求的变化,它也是一个业务变化很快的行业。电商也是有外部竞争的,就算阿里、京东目前处垄断地位的企业,但是对于垂直电商,比如网易的考拉,面对的用户很清晰、小众。它吸走阿里、京东这一部分用户,如果平台再做大就会占领更多的流量。所以即使现在这个格局,阿里和京东也不安全。所以在数据分析在电商里的“势”,是真的大势所趋。

再看一下金融和电信,这两算是比较同一的行业,首先规模是很大的(人人要花钱、打电话、上网),业务变化有但是非常缓慢,电信的业务变化主要体现在互联网对它的威胁上,电信之前就是一个媒体通道,现在慢慢专注到端到端,电商电信也会做。金融就是关注小额信贷,这也是外部竞争迫使它做出变化,蚂蚁金服开始做金融后,大的银行也慢慢感觉到威胁。他们业务变化没有电商那么大,但是由于外部竞争不得不发生变化。这些可以作为第二梯队,也可以做一些数据分析,但不如电商需求大。再一个就是能源,这个规模非常大,但是它的业务基本上非常稳定,竞争至少在国内很稳定,没有什么外部竞争(可能理解不到位),所以在能源行业做数据分析我是不推荐。最后说一下餐饮行业,为什么说这个是为了引出下一个问题,就公司。餐饮行业规模大,业务变化快,竞争非常激烈,家装也是一样。为什么这三者都满足,但是很少有人在家装行业做数据分析呢?这个就是下一个问题公司的数据环境。

因为餐饮、家装、服装,很多时候是强烈的业务销售驱动导向,技术在里面的占比微乎其微,所以在说“势”时,除了关心行业还要关心公司本身数据环境是怎样。数据环境包括:(1)信息化的水平。信息化水平不好,数据都无法采集,何谈数据分析,或者采集数据都是一堆脏数据,分析很费劲,数据质量太差根本不可能做数据分析;(2)数据文化。重点就是流程、规章制度、数据认知和利用能力,一个数据分析的需求需要遵循一定的流程,需要一定流程保证需求是按既定流程走。还有就是数据分析部门和开发部门是怎样一个合作规范,规章制度是什么,交集又在哪里,谁对什么事情负责任,这些都应该在公司规章制度里面。数据认知和利用能力,这一点尤其重要,因为你的数据分析的价值是根据业务来实现的,如果业务对数据认知能力非常低或者对数据利用能力非常低,那么对数据分析的结果就是暴殄天物。(3)一把手的重视程度。只要涉及到数据,无论做什么,都不可能在一个部门里实现,肯定要跨部门协调,至少是业务部门、技术部门和数据部门。如果一把手不重视,数据部门处于整个链条的最下端,提的需求老板不重视,难度就会更大。

很多时候都说数据分析要有一定的套路,数据分析的套路和框架就是数据分析的“道”,还包括数据分析的方向也很重要。数据分析的方向有几个方面:(1)商业模式和发展阶段。商业模式前面已经介绍,数据是服务于业务的,业务的模式是什么,发展到什么阶段决定了数据该做什么;(2)价值链长短、价值评估的难易。有的公司价值链很短,比如零售行业,从采购到存储到销售,就这几步。有一些行业价值链就很长,比如内容行业,我们是卖广告,钱是从用户身上来的,但是钱不是直接花在用户身上,而是花在渠道引流,就是花钱引入流量,用户替我赚钱。为什么说这个决定我们分析方向呢?因为如果数据分析能够赚钱,肯定是会很欢迎的,但是如果你说数据分析只能提升中间某一环节,但不能真正转化为商业价值,兴趣就会大打折扣;(3)业务需求是否稳定。数据分析是一个小迭代的过程,没人能一次把一个课题分析清楚,是需要不断地迭代的。比如数据分析结果给你,你用了产生一些结果数据,奖结果数据再做进一步分析,又给你分析结果,这样不断地迭代,分析会越来越深。但是如果业务需求不稳定,分析很难深入下去,这种模式是不利于我们做数据分析的。接下来讲一下分析框架,(1)业务模式会决定你的分析体系,后续例子会介绍。(2)业务发展方向决定分析目标、业务元素决定分析对象。后续会以例子进行说明。

我们以电商的例子来说明,如何搭建分析框架。首先我们要分析电商的商业模式是什么,电商是一个平台,一头连接用户,一头连接商品。平台提供采购、入库、配送、售后,同时平台还提供搜索等互联网服务,用户卖完商品可能还存在退货。电商模式包含三个元素,用户、商品、平台。除了模式,还需要运营重心,以13年京东运营重心举例,重心是要提升用户体验、运营效率、降低运营成本。所以分析目标随着业务目标生成:提升仓储、配送效率,降低仓储爆仓、缺货成本,降低配送损耗,改善用户下单、售后体验。分析目标和运营目标最大的不同就是:分析目标是业务目标按照元素进行拆分的,比如用户体验分解为下单和售后,下单体验其实还可以划分(比如搜索,导航栏),也就是说分析目标是按照运营目标与运营模式里面的元素的关系进行拆解得出的。有了目标我的分析主题就确立了,分析目标和主题最大的差异是:分析主题是为了完成分析目标,但是主题会涉及多个元素,比如商品的用户生命周期分析,因为做了分析就能提升用户体验,如果把每个商品做一个生命周期分析,比如新的商品,卖的比较好的商品,这种比较优先推荐给客户,那么他体验好,减少退换货,这就是将用户体验在购买阶段做了再拆解,在用户维度做生命周期分析和在商品维度做生命周期分析,做用户生命周期分析也是为了提升用户体验,比如一个刚来的用户和一个成熟的用户和一个要走的用户,刚来的用户你要让他感受平台的优势(让他看到物美价廉的商品),其实用户养成习惯后慢慢就不在乎价格,慢慢就会关注体验本身(送货快不快,包装好不好,如果产生退换货,流不流畅等),所以如果知道用户处于什么生命周期,那就可以给这个生命周期用户更好地体验。比如退换货,京东配送员资源有限,谁先退货这就取决你的生命周期和价值,肯定优先老用户和价格比较高的,来给他更好的体验。

最后讲一下数据分析的“术”,我这里的“术”不是数据挖掘里面的挖掘算法,我指的是一些技巧的总结。比如(1)数据分析主题的定向与定量,前面已经讲过,(2)发现分析主题的两个切入点:指标监控和业务问题。就是有时要做一些主动的分析时不知道从哪下手,通常会从两个角度下手,第一完全从指标监控层面,第二个就是从我对业务的理解、判断方面下手。业务判断方面业务方面会进行,数据部门可以留意指标监控,首先你指标要足够有效,任何一个指标就能反应业务问题,而不是指标重叠、交叉,还有指标要足够系统和全面,不能出现业务上的一些空白导致没有指标监控出来;(3)数学建模。(4)指标创新。这个非常关键,比如PV、UV、时长、要素、转化等,但是每一个业务模式会有其独特的点,比如一个用户点击看内容的网站,之前我们会看用户曝光点击率,因为有的时候曝光点击率不一定好,如标题党骗用户,还有看时长,还有就是阅读进度,可以判断内容观点是不是靠谱,这三个指标单一都不能反应用户体验,所以建立一个新的指标,曝光利用率(将曝光看成一种资源,如果曝光不好就会浪费),将点击率、时长、阅读进度三者融合做一个新的指标。(5)整体和个体。因为我们有时发现问题是一个小点的问题,但是这些问题其实是很多业务逻辑交叉结合引起的。所以分析师要从大局着眼小处着手.(6)分析维度的引入。刚才案例也讲过,当遇到业务挑战时会尝试引入新的维度,支持向量机就是这个思想,因为支持向量机就是你在低维空间线性不可分,在高维空间就可以线性可分。(7)大胆假设,小心求证。大胆假设就是分析师有时不能完全跟着业务逻辑去走,应该在了解业务基础上做一些假设去求证,从假设的角度去求证远远比你把各种指标做模型要简单的多,因为验证是非常短和快的,统计学有很多方法可以借鉴。

最后将一个我如何做DAU分析,就是对DAU进行拆分,在用户维度做了一个拆分,从新老用户划分为新老用户,从活跃度分为高活跃、中活跃、低活跃,从用户性别、地域、年龄划分,兴趣点是什么,在这些维度上做划分,看那些维度变化和我DAU变化关系一致。第二个是从内容维度、业务维度就是对应商业逻辑。分析用户来是干什么,内容肯定会影响DAU,就是做分层,今天不做介绍。第三个维度是业务维度,用户看内容是通过一定的手段拉进来,给一条热点吸引他进来,当然也有用户是根据推荐主动进来,就是让用户看到我们的内容。所以首先我们要监控,发现DAU变化是什么引起的。

——END——

本文由社区公众号首发,欢迎关注,公众号ID:datafuntalk