阅读 9

阅读笔记-用机器学习提升销售量

原文网址 : Boosting Sales With Machine Learning

文章摘要

这篇文章在介绍一家平台公司 Xeneta ,专门在帮需要货柜运输的客户提供价钱比较便宜的海运情报,如果一家公司一年有超过 500 个以上的货柜需要运送,Xeneta 所提供的服务可以帮你省下不少运送成本,但是问题来了,业务发展代表要如何去找潜在的客户? 或是说业务要先去联系那些公司,让他们知道有这样的服务? 也许我们的直觉不外乎

  1. 提升 SEO 关键字搜索,让客户自己找上门
  2. 在线广告
  3. 媒体广告

但是这篇文章给了一个有趣的想法,设置潜在客户的条件,然后去收集符合这些条件的客户,他们的目标客户的营业项目有非常大的差异,但是唯一的特征就是需要海运,于是作者列出了一些潜在的客户分类

  1. Automotive 汽车
  2. Freight forwarding 货运代理
  3. Chemicals 化学品
  4. Consumer & Retail 消费者和零售业
  5. Low paying commodities 低价商品

假设

给定一个公司描述,我们可以训练一个算法来预测它是否是潜在的Xeneta客户?

然后靠这个算法,将潜在客户做成 excel 表格就可以让业务方便去联系,以下是文章中分享的步骤

收集客户数据

接下来要如何去收集每一家公司的描述? 我想你应该也想到了,写一只爬虫,将全世界的网页中有 About us 的网页内容存到数据库然后再来分析,但是 Xeneta 觉得这太耗时了,而且有许多不可预测因素,他们在找事不是有专门的公司有提供 API 可以来做这件事,后来他们找到一家公司-FullContact ,但是 FullContact 的 API 只接受 URL 然后得到公司的 About us ,于是他们只好利用 Google API ,去 Google 公司的名称然后取得公司的 URL ,这样就可以用这个 URL 传给 FullContact 的 API 取得公司的 About us 网页内容。( 这边让我想到一个问题,Xeneta 应该还是有先用某种方法先收集一堆公司的名称,这个方法是否有设一些条件,文中就没有说了 )

创建训练数据集

这个训练数据集应该就是要给机器学习用的,作者指出至少包含 1000 家合格公司与 1000 家不合格公司的数据,文中指出 1000 家合格公司是从 SalesForce 导出来的,不合格公司比较困难一些是由业务手动去做出来的,因为他们之前没有去追踪那些公司是不合格的

数据清理

这个步骤主要将一些大量不相关的消息清理掉,文章中有列出 Xeneta 有使用哪些方法,例如 RegExp,Stemmer ,Stop words ,使用 Natural Language Toolkit将内文概念理解无关的话例如 as is, to, for , at, I , it 等去除

转换数据

将公司描述转换成机器可以理解的格式-数字,文章是使用 Bag of Words 算法将字句转换成矢量,使用 Scikit learn 就可以做到( Scikit-learn 是蛮实用的机器学习程序库),最后使用 tf-idf 转换强调 Abut us 的描述中最频繁出现的字汇,将这个模型套用到你准备好的训练数据集并进行转换

算法

经过以上的数据清理,准备后,就可以开始进行机器学习,也是使用 scikit learn 中的算法 – Random Forest ( RF ) 和 K Nearest Neighbors ( KNN ) ,最后可以在测试的数据集中达到 86.4% 的准确度

这篇文章的作者有将他的代码分享到 github , 有兴趣可以去下载来看

感想

目前我还算是个数据分析与机器学习的门外汉,但是这篇文章给我了一个基本视野,观摩一下机器学习与数据处理在真实的商业需求是如何被应用的,还有这中间要做哪些流程?多看一些真实案例,在学习时会比较能理解那些抽象名词背后的用意与应用。这篇文章没有提到 overfit 的状况,最近在看一本书精准预测,里面就有提到 overfit,机器学习应该会常遇到 overfit , overfit 可视为一种「噪音」,机器学习要如何过滤掉这些噪音,而不是误将「噪音」当作信号? 这应该是很多机器学习专家都要去面对的问题。

最近看了人类大命运这本书,让我对未来又有不一样的认知,作者从人类发展的演化,从智人,人类群体合作,宗教,哲学,自由主义,科技人文主义,一直讨论到最近最热门的话题-大数据与人工智能是否会取代人类,与未来的宗教,我的感想跟前些日子看到一句文案说法一样,「如果不想被机器学习给取代,就好好学习机器学习吧!」,初步先从如何应用开始吧

欢迎逛逛 Soft & Share 网站


关注下面的标签,发现更多相似文章
评论