聊聊香农的信息熵

2,515 阅读4分钟

复杂的世界

我们生活在一个极其复杂的世界,不管是小到分子原子亦或是大到整个宇宙,其复杂程度都是超乎想象。或许你不曾深入去思考过身边事物的复杂性,那是因为你已经对你日常所见习以为常。所有在你出生之前发明的事物都是这个世界的自然组成部分,所以很多事物给人的感觉都是这个世界本来的样子。

复杂世界

像人类这样复杂的事物时如何出现的?像电脑这般复杂的事物是如何出现的?像大河山川那样复杂的事物又是怎样出现的呢?某些事物和另外某些事物是否有什么联系?周围的很多复杂事物也许并没有什么明显的规律,而且很多事物联系都并非是确定性的关系。

信息是什么

信息这个词让我们感到熟悉而又陌生。熟悉是因为我们所处在一个信息时代,跟生活密切相关的就有大量的各种信息,比如书籍、手机、电脑等。而陌生是因为很难精确说明信息是什么并且如何量化信息,比如“地球是圆的”一句话包含了多少信息呢,在古代和现代这句话包含的信息量是不是就不一样了呢。

image

万物都包含着信息,信息可被处理并使用(从广义上称为计算),从广义的信息和信息处理角度看,我们看到的事物变化其实是宇宙的计算。也许可以说世界的本质就是信息+计算。很多科学家认为最有希望统一广义相对论和量子力学的就是信息理论。

image

丈量信息

将信息量化是信息革命的基础,在香农发表《通信的数学理论》之前,信息是一个很抽象而且无法具体确切定义的东西,比如一个人说某公司拥有大量的信息,它有一亿封邮件,那一亿封邮件包含了多少信息?而在物理和化学等领域都已经有各类量纲可以用于丈量各类物体特性,为了让信息可以测量,香农独自提出了比特(bit)概念,使用比特来丈量信息,比特也成为了量纲成员。

image

信息熵

熵是物理学的概念,在热力学系统中,熵和能量可以用来刻画系统的变化。熵可以在分子层面进行理解,物理系统由原子分子组成,所有粒子的瞬时状态(位置、速度)描述了整体状态。粒子不断从某个微观态转变到另一个微观态,而熵对应着微观态的数量,微观态越多熵就越高。也就是说熵用来表示不确定程度。

image

image

借鉴于物理学中的熵的概念,香农将其引入到通信领域,香农认为某个系统要携带信息就必须要有多个状态,而且状态越多,所能包含的信息就越多。此外,还需要引入概率问题,因为在给定条件下,所有可能状态的概率之和必须为1。而可能状态越多则平均任意一个状态发生的可能性就越低。

image

信息与可能状态数量、概率、文本长度、文本本身意义都有密切的关系,但从通信角度来看,可以不必关心文本本身的意义。为了对文本信息进行度量,首先需要确定有多少个可能状态及其对应的概率,将每个状态概率都与概率的对数相乘,然后累加所有项。得到的结果即是信息熵的大小,单位为比特。

image

信息熵注意点

信息熵可以用来刻画系统携带信息的能力,也可以用来表示某个事物所携带的信息量。当使用信息熵来描述事物的信息量时,它缺乏考虑冗余,比如重复的两句话并没有带来两倍的信息量。还有顺序不同的两句话虽然信息量相同,但是从语言层面上的意义并非相同。

调和日常意义的信息与信息熵的办法是将信息熵视为文本所能包含的最大信息量。

-------------推荐阅读------------

我的开源项目汇总(机器&深度学习、NLP、网络IO、AIML、mysql协议、chatbot)

为什么写《Tomcat内核设计剖析》

2018汇总数据结构算法篇

2018汇总机器学习篇

2018汇总Java深度篇

2018汇总自然语言处理篇

2018汇总深度学习篇

2018汇总JDK源码篇

2018汇总Java并发核心篇

2018汇总读书篇


欢迎关注:人工智能、读书与感想、聊聊数学、分布式、机器学习、深度学习、自然语言处理、算法与数据结构、Java深度、Tomcat内核等相关文章