网站数据分析(10)——内容运营分析模型

1,680 阅读7分钟

内容运营是指基于内容的策划、编辑、发布、优化、营销等一系列工作,主要集中在互联网、媒体等以内容为主的行业领域。内容运营根据内容生产方式的不同可分为UGC、PGC和OGC三种。

(1)UGC(User-generated Content),用户生产内容。这是论坛、贴吧、微博时代的主要内容生产方式,内容主要由参与内容载体的用户产生,运营方本身不产生任何实质性内容。这些用户一般都是非专业“写手”,通常基于兴趣、爱好等共同语言而自发形成内容。

(2)PGC(Professionally-generated Content),专业生产内容。PGC相比UGC,都是由用户产生内容,但是这里的用户主要指的是有专业背景、资历的用户,包括行业领袖、知识专家、书籍作者等,这些人通常能产生非常高质量的专业内容。现在很多知识性网站都是此类形式,例如知乎、个人微信公众号等。

(3)OGC(Occupationally-generated Content),职业生产内容。OGC相比PGC在内容专业度上相当,但是OGC的特点是将内容生产作为一门“职业”,因此相对应的从内容生产中获取收入是这一类型的显著性 特征。OGC的普遍代表是各个新闻类网站和媒体,一般都以付费投稿、 分成等方式吸引高质量的“写手”参与内容生产;当然,除了邀请外部专家参与内容生产,这类网站自身也拥有很多职业内容生产者。

本节的数据化运营分析模型主要涉及情感分析模型、搜索优化模型、文章关键字模型、主题模型、垃圾信息检测模型。

一、情感分析模型

情感分析是对情感倾向的分析,用于分析特定对象对相关属性的观点、态度、情绪、立场以及其他主观感情的技术,分析结果通常属于正向、中性或负向的一种。

情感分析的应用场景:

  • 竞争情报:获取用户观点中关于竞争对手的特定信息。
  • 舆情监测:获得有关自身网站、内容、产品、服务、品牌、形象等相关信息的监控和预测,以获得有较强影响力、倾向性的言论和观点的现状及未来趋势。
  • 客户倾向分析:客户对于企业的倾向是积极还是消极的分析,利于建立全面的客户与企业形象认知。
  • 话题监督:监督特定话题下,所有用户的话题集中点、主要内容、话题演变等。
  • 口碑分析:用户对于企业各方面的感知和认识,尤其对于具有良好传播效应的意见领袖的口碑把控。

情感分析常用方法:除了非负矩阵分解、基于遗传算法的情感分析之外,使用的最多的还是监督学习算法,例如朴素贝叶斯、K近邻和支持向量机等。使用分类方法下做情感分析的基本思路是:

  • 步骤1:文本预处理,包括去除无效标签、编码转换、文档切分、基本纠错、去除空白、大小写统一、去标点符号、去停用词、保留特殊字符等。
  • 步骤2:文本分词,在中文环境下需要特定的分词模型。
  • 步骤3:文本向量化,将文本特征转化为向量空间模型来标示。
  • 步骤4:特征提取,对于海量稀疏特征做特征提取,包括特征选择和数据绛维等方法。
  • 步骤5:分类建模和效果评估,选择特定的分类模型,建立模型并做效果评估和结论分析。

二、搜索优化模型

用户在某些文本之间可能存在频繁的关联查阅关系,而这些关键字之间会蕴藏用户的潜在意图。例如,当用户在搜索引擎搜索“热度分析”一词时,相关的搜索词可能包括:空间热度分析、关键词热度分析、音频热度分析、热词分析、关键词热度分析十法、关键词热度分析、网络游戏热度排行榜等。

搜索优化模型可以帮助用户更快找到有兴趣的潜在内容,可用于搜索过程中的联想功能、相关的结果提示和二次搜索建议。

常用的搜索优化模型的方法是关联模型,例如Apriori、FP-growth 等

三、文章关键字模型

关键字提取是从文本中提取跟内容最相关的词语,关键字抽取的结果常用于文档检索、文章标签编辑等,也经常用在文本聚类、文本分类、关键字摘要等方面。

关键字模型能生成简短的关于文档内容的指示性信息,将文档的主要内容或核心关键字呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间并提高信息关键信息的展示能力。

文章关键字模型抽取应用场景:帖子、新闻、资讯、评论、问答等 的标签、内容和meta信息的产生。

文章关键字模型抽取常用方法:通过词频统计、TF-IDF模型获得文本的主要关键字。

四、主题模型

主题模型(Topic Model),是提炼出文字中隐含主题的一种建模方法。在统计学中,主题就是词汇表或特定词语的词语概率分布模型,它是文字(文章、话语、句子)所表达的中心思想或核心概念。例如,当提到IBM时,可能我们会想到ThinkPad;提到比尔盖茨,我们就会想到 Windows。IBM和ThinkPad、比尔盖茨和Windows就是各自主题里面相关的概念。

主题模型是一个能够挖掘语言背后隐含信息的利器,是语义挖掘、自然语言理解、文本解析和文本分析、信息检索的重要组成部分。

  • 它可以衡量文档之间的语义相似性,是文本聚类、分类、情感分析、文档相似度等应用的重要组成部分。
  • 它可以解决多义词的问题,实现准确的词性标注。
  • 它可以排除文本中噪音,从中准确的提炼出主题关键字。

主题模型克服了传统信息检索中文档相似度计算方法的缺点,能够在海量数据中自动寻找出文字间的语义主题。主题模型可以应用到围绕 主题产生的应用场景中,例如搜索引擎领域、情感分析、舆情监控、个性化推荐、社交分析等。主题模型的得到的结果,可以在去停用词之后,配合标签云等形式做进一步的形象展示。

常用的主题模型包括:

  • 潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。
  • 概率潜在语义分析(ProbabilisticLatent Semantic Analysis,pLSA)。
  • 其他基于LDA的衍生模型,如Twitter LDA,TimeUserLDA, ATM,Labeled-LDA,MaxEnt-LDA等。

五、垃圾信息检测模型

垃圾信息检测模型是一种分类应用,主要用于检测特定对象是否包含垃圾信息,是网站内容管理的重要方式和途径。

常见的垃圾信息检测应用包括:

  • 从电子邮件中过滤垃圾邮件。
  • 从站内信中过滤含有恶意信息的信息。
  • 从评论或留言中过滤过激言论。
  • 从用户发布的文章中识别负面题材。

垃圾信息检测模型可以将于分类模型来实现,常用方法:朴素贝叶斯、矩阵变换法、K近邻、支持向量机、神经网络等。

除了基于有标签的训练集做监督式学习外,还可以使用非监督式的方法做垃圾信息监测,例如:

  • 基于内容相似度,分析新评论与已有的垃圾信息的内容相似度,如果相似度高于一定阈值,则认定为垃圾内容。当然,这样做的前提是有一份相对完整的垃圾信息的集合,并且需要不断维护。
  • 基于固定信息的过滤,例如固定IP、包含特定关键字、包含 URL、来源于特定域等,这些就不属于算法类应用了。

除了针对文本垃圾信息检测外,还可包括更多类型的内容形式,例 如视频、图片、语音等。