是什么原因,让 python 社区做出了非 python3 不可的决定

2,709 阅读3分钟

我初学 python 的时候,对为什么要同时存在 python2 和 python3 感到非常疑惑,当时觉得,不就是print不一样吗?不就是在编码上有些不同吗?何必搞得这么分裂呢?

知乎上有个问答:Python 2 和 Python 3 有哪些主要区别? 看了一下,大部分回答都在罗列 “python2 和 python3 在语法和功能有哪些区别” 或者 “python3 相对 python2,做了哪些改进”。我不打算罗列这些 list,我尝试来回答这个问题:是什么原因,让 python 社区做出了非 python3 不可的决定?

0x01 几个重要的发展时间点

  1. 1968 ASCII标准发布
  • 这个时期计算机几乎都是 8 bits 的
  • numeric values (0 - 127)和字符一一对应,比如字符 ‘a’ 对应的 numeric value 对应
  • ASCII只是针对美国人的,这意味着无法支持其他语言体系。
  1. Guido 于 1989年开始开发 python 语言,于 1991 年二月份正式发布第一版
  2. 1991 年 8月份 unicode 标准发布
  • 使用 16 bits,意味着能存放 65,536 个不同的字符
  • 这也是目前使用最广泛的编码标准。
  1. 2004年 python 社区开始筹划 python3

从这你就能看出关键的一点:python 正式发布的时候 unicode 标准还没有出现 ,python 在后面的发展过程中,的确加上了对 unicode 的支持,可这也只是一个可选的feature,不是强制性的!

0x02 python2 str 对象的不确定性

'abcd'

如果你是 python3 用户,你会说这是一个包含了”a”, “b”, “c”, 和 “d” 的字符串。

如果你是 python2 用户,你可能会说这是一个包含了”a”, “b”, “c”, 和 “d” 的字符串,也可能会说这是表示 97, 98, 99, 和 100 的 bytes。

这意味着你得足够细心,明确自己的 str 对象到底是文本还是 bytes ,不然就可能会在你的代码里面埋下 bug。

没错,只要你是一个足够细心,真正 “合格” 的程序员,这些问题都有解决方案。但是!这样的假设是不切实际的,程序员是人,是人就意味着一定会犯错!

0x03 哲学层面的考量

设计任何一个面向所有人的系统,原子层面的设计都要及其小心细致。

数据类型是一门编程语言最最最基础的构成,从哲学层面来讲,构建一座大厦的原子出现这种不确定性是让人无法接受的!

Python之蝉 里面有一句话:

There should be one— and preferably only one —obvious way to do it.

完成一件事,给开发者太多的选择并不就是好的,因为这可能会带来沟通成本、选择成本的增加,得不偿失。

python核心开发者 Brett Cannon 在他的一篇文章 Why Python 3 exists 中说:

And we made the change when we did because we figured the sooner the better.

the sooner the better ,一定要做的事越早越好。

不过他也说了,python2 到 python3 这样大的 “向后不兼容” 的改变之后应该都不会再发生了,因为这的确对开发者不友好。

0x04 总结一下

  1. Python2 str 对象的模糊性,这种原子层面的模糊性是不可接受的
  2. Python2 unicode 只是可选项,不是必选项,可选意味着有人不选。Python3 开始默认支持 unicode。
  3. the sooner the better ,必做的事尽早做。

欢迎关注个人微信公众号:全栈不存在的 个人博客:lcj.im