前端人眼中的大数据生态链

2,769 阅读20分钟

大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样。大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,它催生出了云计算,云安全等等,描绘出了一种全新的生态链。

1. 大数据,到底是什么?

大数据,一场生活、工作与思维的大变革。那它到底是什么呢?如何去分析大数据?
通俗的讲:

  • 收集足够大的数据;
  • 找出规律;
  • 预测未来可能会发生的事 / 识别正在发生的事;
  • 以上大部分工作都是通过计算机完成的,而不是人脑;
  • 大数据的关注点是“规律是什么,将会发生什么”,而不是“为什么会发生”。

以上呢,就大体上通俗得去说明了大数据的概念和分析过程。其实,大数据分析就是让数据“发声”。让原本“沉默”的数据可以说出话:未来可能会发生什么?

实际上,在大数据时代下,就是让数据的处理变得更加简单、更加快速,人们能够在瞬间处理成千上万的数据。同时,在这样的环境下就催生出三个重要的转变:

首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;

当数据处理技术已经发生了翻天覆地变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要全数据模式,也就是样本=总体。

在这个转变中,就体现出大数据的其一特点——数据体量(volumes)会是巨大的。

其次,要乐于接受数据的纷繁复杂,而不再追求精确性;

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。总之,大数据的简单算法比小数据的复杂算法更有效。

在这个转变中,就自然而然出现大数据的又一特点——数据类别(variety)大,数据来自多种数据源。

最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

这就酝酿出大数据的真实性高(Veracity)和价值性优(value)的特点。

这三大转变是相互联系和相互作用的。

2. 大数据,来自哪里?

我们周围有多少数据呢?

答案是300艾字节。相当于一部XXX电影(1GB) × 10亿部 × 1024 × 300

这些数据从哪来的?

  • 机器产生的结构数据
    eg: 收银票据,固定的格式。

  • 人类产生的非结构数据
    eg: 社交平台的评论数据、上传的图片、视频等等。

  • 机构产生的混合数据
    eg: 一家超市,有所有的进销存数据,客户购物数据,还有官网对超市的评论等,有结构化的数据,也有非结构化的数据。

3. 大数据,就在我们身边!

马云说:互联网还没搞清楚的时候,移动互联就来了,移动互联还没搞清楚的时候,大数据就来了。 在信息技术变革过程中,我们都把重点放在“T”(技术)上,而不是在“I”(信息)上。 现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。慢慢从“IT”思想趋向于“DT”的技术驱动。

下面通过几个案例,让大家实打实触摸一把“大数据”。你会发现它其实就在我们身边而且也会发现很有趣、很神奇。

3.1 啤酒与尿布

啤酒与尿布 全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

3.2 杭州治堵

杭州治堵大数据 利用大数据对红绿灯时长进行智能控制,用“杭州城市大脑”疏通道路。车辆通行速度最高提升了11%。同时,解决了城市交通、能源、供水等实时调度问题,让城市更高效运转。

天曜 杭州城市大脑正式上线AI视觉产品“天曜”,用机器代替交警巡逻。主要针对交通违章及事故的自动发现,从事件发生到报警不到20秒,准确率达95%以上。

我们常说:世界上最远的距离是监控摄像头到红绿灯的距离。它们都在一根杆子上,但是从来就没有通过数据被连接过。而现在,在大数据的背景下,它们同在一根杆子上的两个本独立运行的个体,变得相互依存,相互影响,数据共享的局面。未来的物联网革命(物与物互相连接的互联网,产生海量数据并可以共享数据)又会带来怎样的改变呢?

3.3 词云图

这张图并不是美工画出来,而是计算机。这张图的词语并不是随机产生的,而是大数据的分析。它采用Python深入分析2006年至2017年之间共12台《中央电视台春节联欢晚会》主持人主持词文本。包括:分词处理、自定义词及用户词典、停用词处理、词性分布、词频统计、关键词分析最终产生了这张词云。从这张词云图就可以看出这其间央视主持人说话的词语频率。

3.4 用户画像

用户画像
完美地抽象出一个用户的信息全貌,你的消费行为、社会属性,生活习惯,即用户标签化(Tag)。从而为企业提供足够的信息基础,帮助企业快速找到精准用户群体。类似利用用户画像会催生出很多的数据应用,包括抖音的推荐视频以及淘宝的推荐购物,你有时候会发现它推荐的真准确、真神奇、真恐怖,以至于现在慢慢的变成 “计算机”比你更了解你自己的局面。

3.5 杀熟不杀生

滴滴杀熟不杀生 同条线路在不同设备机上会出现不同的价格。“老用户”是否等于 “优质韭菜”?

3.6 Facebook & Uber

facebook隐私泄露 Facebook:8700万用户信息泄露、帮助特朗普团队在竞选中精准投放广告、干扰英国脱欧。
Uber :2016年,两名黑客盗取了 Uber 5000 万乘客的姓名、电子邮件和电话号码,以及约 60 万名美国司机的姓名和驾照号码。

如 Uber、Facebook 这样「漠视」用户隐私数据,也只是庞大互联网在用户隐私数据方面失控的冰山一角。这座冰山底下藏着的是无处不在的数据收集和使用。

3.7 声波出卖你

触摸屏,也能出卖你的手机密码数据。手机的内置麦克风,搭配AI算法,就能让输入的每一个字无处可逃。近期剑桥大学用AI算法“监听”手机打字,无论在嘈杂或安静的环境下,都能很准确的窃听你输入的信息。

“听到你的触摸”,这是论文的名字 (完整版:Hearing your touch: A new acoustic side channel on smartphones) 。在这里,研究人员揭秘了“作案思路”,其实并不难理解。 即使是在触摸屏上轻悄悄地操作,手指的每一次轻微的敲击都会产生声波。当戳击屏幕不同位置时,声波信息也会有相应的变化,就会出现形状不一的声波图,这些声波恰巧可以被手机内置的麦克风捕捉到。

研究人员只需要开发了一个手机恶意应用程序,当这个程序被植入手机时,能够调动内置麦克风,让其秘密开始工作,记录下触摸时的声波信息。你所有的输入数据也就全部拿到了。
下图就是触摸屏上按下“f”键时的声波震动形状。

声波出卖你

3.8 阿里帝国

从以上几个案例我们可以看出,一切皆可“量化”!数据化的核心就是量化一切,当文字变成数据,当方位变成数据,当沟通变成数据,就只有你想不到的,没有信息做不到的事情了。

下面我再通过阿里巴巴商业帝国的模式去理解“数据化”这一概念。

在阿里帝国中,支付宝是一种支付方式,这很常见。甚至于它在和腾讯的微信支付打着没有硝烟的战争。那为什么阿里巴巴要这么“拼命”开发支付宝呢,据银联数据,整个国内银联每年的利润也就十几个亿,那为何要这么“拼命玩”呢?很多人会说,这是个入口,的确是的,不过,我现在想去用另外的思维去看它,那就是为了数据

为什么要为了数据?因为他们要做更高维度的银行。

阿里巴巴

其实,在2015年里,马云就已经全新的定义了阿里这家公司,他说:我们集团本质上是一家扩大数据价值的公司。和未来潜力相比云计算和大数据还只是个婴儿。对的,可以知道,阿里是一家数据公司,只有这样理解了,才知道阿里在过去几年间,在资本市场上的大手笔。

阿里帝国生态链 上图呢,就是阿里间接参与或收购的一些项目。从这些可以看出,阿里健康就是为了获得药品实时数据,菜鸟网络就是为了获得物流数据等等。

要数据干什么?提供一个商业的基础设施。这样,我们是不是理解了马云所作的资本运作了,当然,也就不难理解“大数据”了。

当然,不仅仅是阿里,我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。

4. 大数据,你与云计算之间有啥关系?

云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过Google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源和网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。

大数据本身正是因为数据的爆发式增长带来的一个新问题,如何存储如今互联网时代所产生的海量数据,如何有效的利用这些数据进行分析等等,这些问题都会在未来被解决。

云计算和大数据之间的关系就好比,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的,云计算是要为大数据的分析提供服务的。

5. 大数据,与人工智能在未来可归结为同一件事情!

大数据(Big Data)和人工智能(AI)这些名词概念大家耳熟能详,它们到底是什么?有什么区别与联系呢?

以上篇幅或多或少让你感受过大数据,那么在这就说说人工智能这个东东。

5.1 人工智能到底是什么?

一句话来说,就是让机器能像人一样思考。这句话一点也不夸张,先记住,等会你就会明白。

真正的人工智能是在人工神经网络技术的出现之后才得以蓬勃发展。

在人工神经网络技术出现之前,我们人类能清清楚楚地知道系统内部的分析过程,它们只是一个大型的复杂的程序而已;

而人工神经网络则不同,它的内部是一个黑盒子,就像我们人类的大脑一样,我们不知道它内部的分析过程,我们不知道它是如何识别出人脸的,也不知道它是如何打败围棋世界冠军的。我们只是为它构造了一个躯壳而已,就像人类一样,我们只是生出了一个小孩而已,他脑子里是如何想的我们并不知道!这就是人工智能的可怕之处。让机器能像人一样思考。

人工智能既然是受之于人工神经网络技术而发展的,那么我们就来说说人工神经网络。

人工神经网络是受到人类大脑结构的启发而创造出来的。大脑中有很多神经元细胞,这些神经元细胞通过复杂而有序的连接从而成为大脑神经网络。
神经网络

下图就是人工神经网络,它正是模仿了大脑的神经网络的结构。有输入和输出环节。

我们知道,大脑的结构越简单,那么智商就越低。单细胞生物是智商最低的了。人工神经网络也是一 样的,神经网络的层数越多,它就越复杂,也说明越强大,因此我们需要深度神经网络。

那么训练深度的神经网络这个过程就叫做深度学习。网络构建好了后,我们只需要负责不停地将训练数据输入到神经网络中,它内部就会自己不停地发生变化不停地学习。打比方说我们想要训练一个深度神经网络来识别猫。我们只需要不停地将猫的图片(大数据)输入到神经网络中去。训练成功后,我们任意拿来一张新的图片,它都能判断出里面是否有猫。但我们并不知道他的分析过程是怎样的,它是如何判断里面是否有猫的。就像当我们教小孩子认识猫时,我们拿来一些白猫,告诉他这是猫,拿来一些黑猫,告诉他这也是猫,他脑子里会自己不停地学习猫的特征。最后我们拿来一些花猫,问他,他会告诉你这也是猫。但他是怎么知道的?他脑子里的分析过程是怎么样的?我们不得而知~

人工神经网络

5.2 大数据与人工智能的差异?

一个主要的区别是大数据是原始输入,需要在数据变得有用之前做出数据结构化和集成;而人工智能是输出,是处理数据产生的智能化的结果。这是两者本质上的不同。

大数据是旧式计算。它不会对结果起作用,它只是寻找数据。它定义了非常大的数据集,并且是极其多样化的数据。数据集可以存有结构化数据,例如关系数据库中的事务数据,以及非结构化的数据,例如图像,电子邮件数据,传感器数据等。大数据为人工智能提供集成好的数据。

人工智能是一种全新的计算形式,允许机器执行认知功能,例如对输入起作用或作出反应,类似于人类的行为。传统的计算应用程序也会对数据做出反应,但反应和响应都必须手工编码。正如我们上面所说人类明白应用程序内部执行的逻辑。

我们将多样化的数据(x1,x2,x3)交给神经网络去不断训练他们的识别能力,进而有着比较精准的输出。这时当抛出任何类型的曲线球(是一种意外的输入),应用程序无法做出反应。而人工智能系统会不断改变他们的行为,以适应调查结果的变化和修改他们的反应(即输出)。
人工神经网络

以上是本质上的不同:简单来说,大数据专注于输入,人工智能专注于输出。这种本质上的差异也造就了它们在应用上的差异化。

大数据主要是为了获得洞察力。豆瓣如何根据你观看的影片向你推荐可能喜好的影片?因为它着眼于用户的习惯以及他们的喜好从而利用这些数据发掘出用户对某件事物的偏好程度。

人工智能(AI)是关于决策,并学习去做出更好的决策。无论是自我调整软件、自动驾驶汽车还是检查医疗样本,AI都在做以前由人类完成的任务,但速度更快,错误更少。

5.3 大数据与人工智能是同一件事情

将人工智能与大数据进行对比是一个自然的错误,部分原因在于它们实际上是在一起。但它们是实现相同任务的不同工具。

因为人工智能需要数据来建立智能,特别是机器学习。例如,机器学习图像识别应用程序是查看数亿张飞机图像,以了解飞机的构成,以便将来识别它们。AI的机器学习是通过反复试验来学习,这需要大量的数据来教授AI。

大数据可以提供训练AI的机器学习所需要的两种数据。初始训练的数据,它是一种启动泵,并定期收集数据。一旦初始训练完成,AI便可以茁壮成长,永不停止学习。这时大数据会源源不断提供数据,此时的数据被称为持续化数据,AI接收持续化的数据,并且不断调整它们的行为已作出最佳的决策。AI应用程序拥有的数据越多,其结果就越准确。

如果对人工智能感兴趣可以花钱看看床长的人工智能 戳链接

5. 大数据,与你我有关么?

当今,大家对「大数据」、「物联网」、「人工智能」、「机器学习」、「5G时代」等词肯定不陌生,可能现在张口就来。甚至有人会觉得这些概念华而不实,很虚。当然这其中肯定有不少媒体或公司打着这些招牌去博眼球。但是,未来的趋势肯定是这些。就像上一个互联网风口一样。

因此,很多人会觉得,上一个互联网风口我没有抓住,如今大数据、机器学习的风口我一定要抓住。就不断涌入去学习大数据、机器学习、人工智能。毋庸置疑,这是好事。但还是有很多人不会进入这个领域。但我想提供给大家一个思路,那就是从机器学习理论中找到学习的理论和方法

下面这张图的右边部分是机器学习的理论:为何建模?如何建模?建模误区?如何应用?

从这张图我们可以知道,学习方法是可以从机器学习理论而来的,把名词替换掉,其他都是一样的。不同的是,一个教人如何学习?一个教机器如何学习?

人工智能或大数据对教育的最大贡献并非是什么锦上添花的技术,而是可供我们日常学习参考的理论知识。

对于学习观 可以在哔哩哔哩关注YJango 个人非常喜欢他的观点 戳链接

所以,这些「大数据」、「物联网」、「人工智能」、「机器学习」、「5G时代」我们每个人都可以去学习,并且可以学到东西,学习不同区块的东西,从而用自己的知识体系挖掘出新知识的价值所在。不管是前端工程师亦或者是一位普通经商从业者。

更为重要的是,我们所有的人不仅仅可以去学,能学到东西。而且,我们每个人都参与其中。

大数据的定义是什么?它是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

要做什么?——获取数据、存储数据、分析数据

对谁做?——大容量数据

目的是什么?——挖掘价值

它最终的目的是为了价值,商业价值、科研价值等等。就好比,上一个移动互联网时代,它最终的发展是服务于人,我们能真正感受到,感知到,从而利用到各个商业服务。全民网购、餐厅在线点单、微信让我们社交更方便,支付宝让支付更简单等等,这些我们都能真正感受到的,利用这些实实在在方便了我们的日常生活,也可以真正去利用这些为我们产生价值。

当一个新兴事物在不断壮大和成熟之后,所有的人都能参与融入进来,所有的领域都会发展和改进。就好比全面屏和折叠屏的出现,前端是不是又要考虑这两个大脸屏的兼容性问题,就会不断出现新的解决方案。现在你可能并不知道5G、人工智能到底是什么?但是当它们成熟的时候,它就会渗入到日常生活,我们都能感知并从中获得价值。

当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。

在这几年时间里,我们要去明白一个道理:“取之不尽,用之不竭”的数据创新。数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分都隐藏在表面之下。

大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

最后,我以一个小小的问题作为文章的结尾:在不久的未来上,你认为Do the right thing(做正确的事) 和 Do the thing right(把事情做好) 哪个更为重要呢?


文/吕涯
若有错误,及时提出,一起学习,共同进步。谢谢。 😝😝😝
觉得还不错,骗你个赞,可否?