网站数据分析(9)—— 流量运营分析模型

2,086 阅读14分钟

本章的分析模型围绕流量数据化运营展开,主要包括:流量波动检测、渠道特征聚类、广告整合传播模型、流量预测模型。

一、流量波动检测

在广告流量结构中,有几类流量是相对稳定并且效果较好的,例如导航类流量(例如360导航)、品牌专区流量(例如百度品牌区)、品 牌关键字(例如百度品牌关键字)、SEO流量(例如百度SEO流量)。这些流量虽然会受到企业广告预算的影响,但一般情况下只要广告预算足够,企业是不会主动撤销对于这几类流量渠道的费用支持。

对这几类广告渠道可以通过广告流量波动模型进行监测,该模型可以对具有相对稳定或具有一定时间规律特征的数据做检测分析。在之前的异常检测类模型中,我们提到了监督式和非监督式两种,这里介绍一种相对传统的基于时间序列的异常检测方法。

基于时间序列的异常检测方法与其他异常检测方法最显著的特征是数据之间具有明显的时间先后次序,并且每个数据都有时间维度且按时间排列。与时间序列分析类似,在做检测应用时的整体流程都需要对时间周期数据做检验、差分并进行拟合,不同之处在于预测的结果数据中我们可以定义上下限的置信区间,如果真实值超出置信区间那么就意味着数据波动异常。

步骤实现该方法:

  • 步骤1:数据读取和预处理,主要是将字符串转换为时间格式。
  • 步骤2:数据稳定性、白噪声检验和预处理。
  • 步骤3:时间ARIMA或ARMA对时间序列数据拟合,找到最佳PDQ或QP参数值以及对应fit(训练时)的最佳模型结果对象。
  • 步骤4:基于最佳模型结果对象选择应用forecast方法做预测(而不是predict方法),并设置如下关键参数:
    • steps:整数型,要预测的时间序列点之外的数据数,例如设置step=6的效果与predict方法中设置predict(start='2019-07-28',end='2019-08-02')的周期是相同的。
    • alpha:浮点型,设置具体置信区间范围,置信区间值设置为(1-alpha)%,例如设置alpha=0.05会计算在95%置信区间下的范围值。

例如使用forecast(steps=6,alpha=0.05)后返回的结果如下:

(array([ 183.03624893, 124.61319468, 134.67763687, 143.22815918, 111.08688519, 113.70161409]), 
 array([ 40.80850407, 43.94083939, 46.60465652, 50.11657005, 50.13881589, 50.13929372]), 
 array([[ 103.0530507 , 263.01944716], [ 38.49073202, 210.73565733], [ 43.33418858, 226.02108516], [ 45.00148685, 241.45483152], [ 12.81661182, 209.35715855], [ 15.43040419, 211.97282398]]))

结果包括三个数组:

  • 第一个数组是预测值,跟使用predict方法得到的结果相同。
  • 第二个数组是预测值的标准差。
  • 第三个数组是预测值的置信区间的上下限,是一个二维数组。基于第三个数组可以定义出正常波动范围的上下限,如果超出该范围则可以认定为异常波动。

除了可以应用到广告流量的异常波动检测外,该模型还可以应用到流量运营中的网站重点内容的检测,例如首页、帮助中心、购物车流程页等,这些页面通常相对来讲从流量来源结构、用户访问特征等方面的特征相对稳定,也可以做流量波动性检测。

二、渠道特征聚类

当企业投放众多广告媒体时,第一次对如此众多的媒体多特征分析可能无从下手。此时可以考虑对广告渠道特征进行聚类,然后从几类具有比较显著的群体上再深入挖掘。

以几乎所有企业都会投放的SEM渠道为例,账户内的关键字拥有上千个长尾词是常态,大型企业过百万的关键字更是“家常便饭”,如何针对海量关键字效果做分析是一个难点。以聚类方法为例,首先可以使用聚类方法将所有的关键字的属性、操作和效果划分为多个群组。其中:

  • 属性:账户结构、质量度等。
  • 操作:预算、价格、黑名单、地域、匹配方式、时段、展示方式、匹配的创意、平台等。
  • 效果:SEM排名、点击价格等SEM指标,站外广告曝光、点击以及站内流量数量和转化类指标

然后,基于划分的群组分析不同群组间的显著性特征,从中找到可以进一步分析和优化的方向。例如:

  • 某一类关键字的排名较差、质量度低、流量低、转化差,这些可 能需要重新规划关键字投放策略;
  • 某一类关键字的排名好、质量度高,但是流量低,这些可能需要重点优化展示和创意的吸引度,以获得用户的关注和点击;
  • 某一类关键字的排名好、质量度高、流量高,但是转化差,这些关键字需要重点从着陆页开始做分析,将转化流程和步骤层层拆分,找到流失和转化的关键节点。

三、广告整合传播模型

广告整合传播指所有企业的广告和传播活动都以统一的策略作为指导,通过一定方式的组合来实现传播效果的最大化目标。广告整合传播的概念很早就已经出现,跟这个概念类似的另一个概念是整合营销传播。但整合营销传播涵盖的内容几乎涉及企业经营的方方面面,范围太大,因此这里我们只讨论其中的广告整合传播的内容。

广告整合传播的出现主要基于两方面背景:

  • 当前的广告媒体以及用户接触信息的渠道非常多,导致没有一种广告渠道可以完全覆盖所有用户群体,因此媒体碎片化现象非常严重。企业要想覆盖尽量多的用户,只能选择更多的广告媒体一起投放。
  • 营销公司(尤其是4A公司)发现,不是所有的广告渠道都对于企业广告传播具有相同的作用和贡献,基于不同渠道的贡献情况需要在组合时使用一定的组合策略和方法。

如何选择广告媒体以及如何组织不同广告媒体的传播策略是广告整合传播关注的问题。实际上该问题在数据化运营时代之前已经开始研究,但当时受限于数据样本、技术等问题,只能通过抽样调查的方式开展,因此结果的参考性不大。

当前,通过数据量化的方式做广告整合传播模型分析,主要涉及三个数据分析方法的组合:

3.1 广告来源路径

广告来源路径可以提供不同路径所产生的转化数量、转化价值、平均需要时间以及转化步长等。下图的报告来自于Webtrekk(其他网站分析工具也提供类似的报告),报告中的每一条广告媒体路径都是在转化前提下形成的路径。

以序号10所代表的用户广告媒体路径为例,用户先通过Facebook后通过Direct进入网站并完成转化的数量是21次,价值是103.4,平均需要的转化时间是0.76天,总转化步长是2(两步)。

3.2 目标转化归因

目标转化归因能够解决在不同的归因模式下,所有参与转化的广告媒体对于目标的贡献情况。在不同的归因模型下,不同渠道的贡献。很多网站分析工具可以提供多种可选归因模型。

Webtrekk提供的多重归因模型,该模型可以对于根据位置综合归因,权重分配通常是为最初进入渠道和最末进入渠道订 单贡献较大,其他渠道贡献较弱。如图中默认第一和末端渠道权重分别为30%和40%,其他渠道平均都是10%。

在归因的价值度量上,可以选择使用多种度量指标,例如转化数量、转化价值等。具体以定义的转化目标为依据。通常情况下,电子商务转化中,对于订单类的贡献以订单量为衡量指标;对于非电子商务类转化,以目标完成次数为衡量指标(例如阅读数、提交次数、线索数量等)。

3.3 广告渠道的关联访问

关联分析不仅可以用来做购物篮分析更可以扩展到用户访问行为、搜索行为等多种模式的分析。将关联分析应用 到广告渠道的模式探索,是对用户广告来源路径的进一步深化。

在对广告来源路径的研究中,我们已经知道每一条用户转化路径以及包含的广告渠道,但是这种分析方法仍然有2个问题没有解决:

  • 该路径已转化为触发点,没有转化就没有路径,这会使得那些侧重于曝光的信息无法产生路径信息,更无法测量其对网站的贡献意义,哪怕仅仅是流量贡献。
  • 在大多数情况下,转化路径都会产生长尾效应,即大多数的转化会集中在成百上千个各式各样的转化路径中,仅凭观察无法从所有路径中提取出关于渠道组合的有效规律。

将关联分析应用到广告渠道的关联访问,恰好可以解决上述2个问题。下截图为Webtrekk的渠道关联访问报告。

在报表中,我们可以找到特定广告媒体之间的相互关联关系。这种关联关系跟转化无关,只与用户的先后访问行为和模式有关。例如,序号1代表的关联模式意味着用户先通过Facebook再通过Daily Banner访问网站的数量是21,支持度是0.76,提升度是1.03。其中数量对应关联分析结果中的实例数。

综上,我们来总结一下如何通过这三种方法实现对广告整合传播模型的更好解读:

  • 用户广告来源路径可以帮助我们了解带有转化的用户访问来源的所有先后序列以及转化步长和时间,这对于转化过程、时间和模式的理 解非常重要。虽然每个转化的路径是一个全路径,但读者其实可以将其路径作为已经预处理好的关联分析的源数据,直接对其做关联分析可以从中找到有转化的用户的广告来源模式。
  • 目标转化归因可以帮助我们根据企业自身特点定义的归因模型,有效的对参与转化的广告渠道做贡献分配,从而辅助于价值评估和付费投入,尤其对于处于转化“前期”处于引流和辅助功能的渠道特别重要。
  • 广告渠道的关联访问可以帮助我们了解所有用户频繁的访问模式,尤其对于小范围的媒介组合尤其有效,它可以解决全过程(包含转化和非转化)的用户关联访问模式的问题。

虽然上述三种方法已经相对于以前的调研问卷方式有了进一步的量化提升,但仍然有以下几方面问题需要注意:

  • 上述方法的实现目前都是基于cookie的,而我们知道cookie的稳定性会随着时间、用户操作等因素改变,这会导致数据直接发生变化。
  • 用户应用平台的多样化以及多设备、多浏览器和多应用导致的同一个用户识别难度增加,如果用户没有有效的识别方式,那么数据会产生极大的分散性,也就无法产生关联效应。
  • 流量作弊的问题在广告领域比较频繁,在做整合分析之前的异常检测和数据排除工作也必不可少。
  • 受限于数据采集的限制,当用户仅仅浏览但是没有点击企业投放的广告并到达企业网站或应用时,由于企业无法获得广告曝光信息,因此无法对非点击或者点击非到达类的渠道做评估。常见的此类渠道以展示类广告为主,例如CPM类。

四、流量预测模型

广告流量预测几乎是每个营销部门在做广告策划时的必要步骤。通过广告流量预测模型可以基于现有的流量以及广告费用水平等因素,预测在一定条件下可以产生多少流量。在电子商务公司中,这种流量往往基于销售目标产生,通常思路是企业先确定销售任务,然后根据销售任务反推需要的流量支持。

流量预测根据不同的场景有不同的方法:

  • 如果是没有可控的自变量或无法找到自变量的,例如直接流量、引荐流量、自然社交媒体流量等,可以考虑使用时间序列分析方法。
  • 如果是费用控制类媒体,例如SEM、硬广、导航类广告等,可以使用回归类模型做流量预测。

流量预测应用跟其他数值型预测(例如销售预测)的方法类似,但存在一定的特殊性:

  • 广告费用的持续性。一般情况下,广告费用支出是持续的,但在某些情况下,可能由于费用到账不及时等因素导致广告无法投放,此时会出现有费用无流量的情况。这些通常是由于沟通机制和媒介自身因素 导致。
  • 服务器并发的响应性。当企业做大型促销活动时,流量往往呈几倍甚至几十倍的增长,如果企业服务器无法支撑瞬时的高流量并发,那么会影响整个公司的数据工作,包括流量、销售、会员等。在数据方面的影响主要是没有流量数据、销售数据下跌等。
  • 广告媒体的相互影响。广告媒体的投放往往会产生交叉影响效应,这意味着即使某些媒体没有投放广告,也会受到其他媒体或活动的影响而产生数据变化。例如投放广告通常会增加SEM品牌关键字、品牌区、导航网站、直接输入渠道的流量。
  • 作弊流量。这里又一次提到作弊流量,原因是作弊这一因素很多情况下不可控并且不一定能被检测出来。另外,不同类型的广告的作弊流量规模也不同。通常点击类(流量数量为主的广告渠道,例如硬广)作弊较为严重,SEM、导航、社交媒体等相对较好。
  • 广告效果的持续性。当广告停止投放之后,广告效果仍然会持续一段时间。这种现象比较常见,尤其是时效性较长的广告,例如电子邮件、社交媒体等。
  • 补量。补量的意思是广告媒介由于某些自身因素,没有达到预期承诺的广告投放标准,例如展示次数不足、点击量不足等,此时媒介会通过增加广告位置、延长广告时长等方式补足承诺效果。