阅读 1482

如何成为用户画像方面的专家

用户画像是一个老生常谈的话题了,几乎所有的互联网公司,都需要用到用户画像,无论是 ToC 的业务,还是 ToB 的业务。但真正理解什么是用户画像,且能够产出精准、有效的用户画像,就不是那么容易的一件事情了。

所以,我想通过本文和大家分享一下,我关于用户画像方向的思考,及探讨如何更专业地完成用户画像。

最早提出用户画像概念的是交互设计之父 Alan Cooper,原话为:"Personas are a concrete representation of target users",是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。

Alan Cooper

为什么需要做用户画像?

大家一定有过被好朋友推荐某种商品、某部电影的经历,而且成功率往往很高,究其原因很简单,因为你的朋友非常了解你,知道你对什么感兴趣,知道你此时此刻需要什么。

互联网公司非常渴望,能够像你的朋友那般了解你,这样业绩自然会增长的非常快速,且用户满意度也极高。

从公司的发展角度来看,用户画像主要承载了两个业务目标:

  1. 拓展新用户
  2. 获得新订单

拓展新用户

大家每天都会面对海量的信息,然而又有多少信息能够吸引到你的注意力,并最后成功地将你转化,想必是少之又少,绝大多数的信息被“浪费”了。

因此,公司只有准确的了解现有的用户,才能在茫茫人海中,通过精准的营销,获得日渐稀缺的新用户的注意力。

获得新订单

现在,任何一个平台提供的内容或者商品的数量,已经远远超过用户仅仅通过浏览,就可以知晓全面信息的程度了。

如果不能第一时间将用户感兴趣的信息推荐给用户,那么用户很可能在找寻的过程中,快速失去耐心,不仅新订单不能成交,甚至会导致用户的流失。

平台需要捕捉到用户的需求点,才能快速地促成新订单的成交。

关于用户画像,我们需要做什么?

很多公司都有DMP(大数据管理平台),起到了一个帮助用户画像“变现”的作用。从技术的角度来看,DMP是将用户数据进行标签化,利用算法找到相似人群,同业务场景结合,筛选出高度匹配的用户群,并想办法触达这些用户(弹窗、短信、广告联盟等),并跟踪其效果。

事先我们要定义好,用户画像需要哪些不同的维度,我梳理了一份较全面的维度列表:

  • 自然属性,比如:性别、身高等
  • 社会属性,比如:职业、学历等
  • 财富状况,比如:收入、支出等
  • 家庭情况,比如:是否结婚、是否有孩子等
  • 购物习惯,比如:价格敏感度、品牌忠诚度等
  • 位置特征,比如:所在城市、工作地点等
  • 其他行为习惯(兴趣等),比如:球迷、游戏迷等

用户画像

用户画像具体怎么做?

想要真正理解用户,并准确刻画用户,其实是无法做到的。因为,用户的意识 99% 是存在于“脑海”中的,是单机的,是无法触碰的,只有 1% 会在“线上”体现出来,比如:搜索某个关键词、在网上买了一袋米等等。

用户的线上数据只是用户内心世界的一个小小的投影,从高维到低维,从无穷到有限的映射,自然信息会有所损失。

冰山理论

企图通过低维推导出高维,通过有限推导出无穷,理论上是不可能做到的,所以,我们只能做到狭义上的用户画像。

我们一般是这样描述一个事件的:什么用户,在什么时间,什么地点,对什么对象,做了什么行为。

一个事件在日志中,是这样解释的:

  • 什么用户,标识用户的方式,比如:Cookie、注册ID、Email、手机号、身份证等。
  • 什么时间,产生日志的时间戳。
  • 什么地点,页面类型,比如:启动页、搜索页、详情页等。
  • 什么对象,内容、商品类型,比如:标题、描述等。
  • 什么行为,用户的操作,比如:浏览、点赞、评论、分享、收藏、购买等。

一般典型的数据格式如下:

{
  'user_id': '001',       # 用户ID
  'opt_time': 1578905680, # 操作时间戳
  'opt_page': 'search',   # 操作页面位置
  'opt_type': 1,          # 行为类型: 1-点赞、2-评论、3-分享、4-浏览
  'opt_content_id': 1     # 对象ID
}
复制代码

其中用户ID、时间戳比较容易理解,基本就是字面意思,然而页面位置、行为类型、对象ID则需要解释一下。

页面位置

虽然用户操作的对象是相同的,但发生在不同的页面位置,其体现出的用户意愿程度也是不同的,即权重。好比:一瓶矿泉水,在超市卖1元,在火车站卖3元,在景区卖5元。

我们需要为不同的页面位置定义不同的权重,才能更精准地刻画出用户画像。

行为类型

与页面位置类似,用户的不同行为也能折射出用户不同程度的意愿。

典型的用户行为权重如下:

行为 权重
浏览 1
点赞 2
收藏 5
分享 7
评论 10

对象ID

仅仅记录下对象ID,还远远不够,无法真正体现出用户的兴趣点,需要将对象ID标签化。

标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。

标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。

自此,用户数据就已经讲解完了,现在就需要计算方法了。

关于计算方法,我们需要注意以下两点:

  • 时间衰减
  • 热度衰减

时间衰减

越早之前的行为对于用户当前的兴趣表现影响越弱,用户标签的权重会随时间的增加而衰减,因此需要定义时间衰减因子。

热度衰减

如果非常多的用户都喜欢的内容或商品,那么说明它是热门的,并不能真实地反映出用户的兴趣爱好,需要我们进行惩罚,而对冷门、偏门的进行加权。

最终,我们可能得到类似这样的结果:

  • 用户A的职业:程序员 0.8;用户运营 0.3。
  • 用户A的性别:男 0.7;女 0.3。
  • 用户A的年龄:20岁以下 0.6;20-30岁 0.3;30岁以上 0.9。

总结

用户画像质量的高、低,直接影响着业务发展好、坏,而影响用户画像质量的因素,往往是细节方面的处理,本文从原理和流程上进行了讲解,指出了处理方面需要思考的细节,希望对大家有所帮助。

最后,安利大家一本掘金小册《深入理解NLP的中文分词:从原理到实践》,让你从零掌握中文分词技术,踏入NLP的大门。

如果因为以上内容对你有所帮助,希望你帮忙点个赞、转个发、评个论。

关注下面的标签,发现更多相似文章
评论