[译]颜色比例尺

1,391 阅读6分钟

原文链接: Color scales

4. 颜色比例尺

数据可视化中颜色有三种应用场景:(i)用颜色来区分数据集;(ii)用颜色来代表数据集;(iii)用颜色来突出数据。如何选择并使用颜色在这三种情况下各有不同。

4.1 用颜色来区分数据集

我们经常使用颜色作为区分不具备内在顺序关系的离散项目或分组的手段,例如地图上不同的国家,或者某个产品的不同制造商,此时,我们使用定性的颜色比例尺。这种比例尺包括一组有限的颜色集,彼此截然分明,而又殊途同归(distinct from each other while also being equivalent to each other)。后者要求任何一个颜色不应特别突出,同时颜色之间不能有明显顺序关系——就像一组递进变亮的颜色,此时颜色所代表的项目也会被认为有顺序关系,而根据定义,这些项目应该是无序的。

幸运的是,我们可以很容易地在社区中获取理想的定性颜色集。图 4.1 列出了三种颜色集。值得一提的是,ColorBrewer 项目提供了一系列好看的颜色集,包括从极浅到极深的色系。

图 4.1

颜色集示例。Okabe 会作为本书默认颜色集,ColorBrewer Dark2 和 ggplot2 hue 也应用广泛。

图 4.2 给出了如何应用颜色集的示范,图上展示了 2000 年到 2010 年美国各州的人口增长率。我已经根据增长率大小对各州进行了排序,然后基于地理位置不同添加颜色。从图上我们可以看出,同一个区域的州有着较为接近的人口增长率。值得一提是,西部和南部城市相对于中西部和东北部有着更快的人口增长率。

图 4.2

图 4.2: 美国各州人口增长率

4.2 用颜色来代表数据集

颜色也可以用来代表数据集,比如收入、温度和速度。此时,我们应该选择连续型颜色比例尺。连续型颜色比例尺包含了一组颜色,颜色之间能够明确传递出(i)数据之间的大小关系,(ii)数据之间的距离。第二点意味着颜色比例尺在完整区域内需要均匀分布。

连续型比例尺可以基于色相(hue)分布(从深蓝色到浅蓝色),或者是多色相分布(深红色到浅黄色)(图 4.3)。多色相分布一般遵循自然界的颜色渐变关系,例如深红色、绿色或蓝色,过渡到浅黄色,或者深紫色到浅绿色。相反,如果是深黄色到浅蓝色,看起来就不太自然了,不太适合使用。

图4.3

图 4.3:连续型颜色比例尺。ColorBrewer Blues 是一个单色变化的比例尺(从深蓝到浅蓝)。Heat 和 Viridis 则是多色相比例尺,分别是从深红色到浅黄色,以及从深蓝色到绿色再到浅黄色。

连续型颜色分布尤其适合跟地理分布相关的数据集。图 4.4 中我们展示了一副用颜色来代表数据的地图分布图。这种地图术语叫做 choropleths。图上展示了得克萨斯州各县年收入的中位数。

图4.4

图 4.4:德克萨斯州各县年收入年收入的中位数。颜色从浅到深,分别代表该县年收入中位数从低到高。

某些情况下,我们需要将数据集的偏差可视化为相对于一个中性点两个方向的分布。最直接的例子就是一组具有正数和负数的数据集。如果我们用颜色来区分这些数据,那么我们一眼就能看出哪些是正值或负值,以及离中心点的方向和偏移量。这时候适用的颜色比例尺叫做分散型颜色比例尺(diverging color scale)。分散型颜色比例尺我们可以理解为两段连续型颜色比例尺通过一个中心点来连接,中心点通常是浅色的(图 4.5)。分散比例尺需要平衡两端的颜色分布,从中心点到两侧深色位置要大致相同。否则,两侧的数据集只能和中心点做比较。

图4.5

图 4.5:分散型颜色比例尺。分散型颜色比例尺由两段连续型颜色比例尺连接而成,常见的分散型比例尺包括从棕色到蓝绿色,从粉色到黄绿色,从蓝色到红色。

图 4.6 展示了分散型颜色比例尺的应用,图上展示了德州各县白人占比的分布。虽然百分比肯定是一个整数,但是我们可以基于 50% 作为一个中心点。高于 50% 则说明白人占多数,低于 50% 则相反。可视化清楚地显示了哪些县白人占多数或少数,或者白人和其他有色人种大致相同。

图4.6

图 4.6:德州各县白人分布图。

4.3 颜色用来突出数据

颜色也可以高亮数据集中的特定元素。数据集中可能存在某些特殊的类别或值,其中包含了我们所要讲述故事的关键信息。我们可以向读者突出相关的图形元素来增强故事。一个简单的做法是,将相关图形元素用一种或一组颜色着色,让其从其他数据集中脱颖而出(stand out against the rest)。我们可以用强调色比例尺(accent color scale)来实现。强调色比例尺包含了一组柔色色系,和一组更强、更深、更加饱和的色系(图 4.7)。

图4.7

图 4.7:强调色比例尺的示例。包含了 4 个基础颜色和 3 个强调颜色。强调色有几种生成来源:从已有的颜色色系中淡化某些颜色,并强化另外颜色( Okabe Ito Accent);基于灰色色系生成强调色(grays with accents);直接使用现有的强调色系(ColorBrewer)。

图 4.8 展示了同样的数据选择不同颜色就能讲述不同故事的示例。图 4.2 展示了美国各州人口增长率的分布,这里我们选择 Texas 和 Louisiana,这两个州都在南部,并且彼此相邻,但是 Texas 增长率排在前五,而 Louisiana 则是倒数第三低。

图4.8

图 4.8:Texas 和 Louisiana 相邻城市,但是人口增长率却截然不同。

使用强调色时,关键的一点是基础颜色不应该喧宾夺主。看看图 4.8 上基础颜色是如此的低调,这样才能突出强调色的作用。一个经常容易遇到的错误就在于基础色太过丰富,分散了读者的注意力。不过仍然有一个简单的补救措施,只需要删除图中所有元素的颜色,但保留需要突出显示的元素。图 4.9 给出了一个示例。

图4.9

图 4.9:田径运动员在所有流行运动项目中最为短小精瘦。