手把手Numpy入门教程【二】——数组与切片

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是Numpy专题的第二篇，我们来进入正题，来看看Numpy的运算。

上一篇文章当中曾经提到过，同样大小的数据，使用Numpy的运算速度会是我们自己写循环来计算的上百倍甚至更多。并且Numpy的API非常简单，通常只要简单几行代码就可以完成非常复杂的操作。

计算与广播

在Python中的数组无论是什么类型，我们是无法直接对其中所有的元素进行计算的。想要做到这一点，必须要通过map这样的方式操作。而Numpy当中，我们可以很方便地对一整个数组或者是矩阵进行各式的计算。

首先，我们先定义一个Numpy的数组：

arr = np.array([[1,2,3],[2,2,3]])

首先而我们来看一下基本的四则运算：

这张图中我们可以看出两点，首先是Numpy当中的数组重载了四则运算符，我们可以直接通过加减乘除进行计算。第二点是Numpy自动替我们做了映射，虽然我们运算操作的对象是数组本身，但是Numpy自动替我们映射到了其中的每一个元素。

如果你不喜欢直接运算，想要使用Numpy的api进行调用，也是一样可以的。Numpy当中也为加减乘除提供了api。

我们甚至还可以比较两个数组的大小，得到的结果是一个bool型的数组，代表其中每一个元素的大小关系。

除了列举的这些之外，Numpy当中还提供了许多其他的api来进行各种计算，几乎囊括了所有常见的数学计算公式。比如log、exp、pow、开方、三角函数等等计算，基本上api的名称和math当中的一样，大家也没有必要都记住，基本上可以根据英文猜出来，一般来说记住常用的，其他的可以等到使用的时候再查阅。

广播

理解了Numpy中的基本操作之后，接下来要介绍一个非常重要的概念，叫做广播。如果这个概念理解不到位，那么后来在使用的过程当中，会遇到很多头疼的问题，或者是总是看不懂别人的代码。

广播的英文叫做broadcasting，这个思想应用的范围很广，比如分布式消息中间件等很多领域都有化用。在Numpy计算当中，广播指的是将一个小的数据应用在大数据的计算上。这个概念其实很形象，我们来看个例子。

比如我们想要对Numpy中的数组每一位的元素都加上3，我们当然可以创造出一个同样大小的数组来，然后再把它们相加。但是大可不必这么麻烦，我们直接用原数组加上3即可，Numpy内部会发现3和我们的数据大小不一致，然后自动帮我们把3拓充到和我们的数据一样大小的数组再进行计算：

它其实等价于：

np.full_like(arr, 3) + arr

如果你能理解了上面这个操作，那么同样的，我们要对所有的元素平方或者是开方也都不在话下了：

广播并不是只可以用在数组和一个整数之间，还可以用在数组和另外一个规模更小的数组当中，但是会对两者的shape有所要求。Numpy规定，两个数组的shape必须相等或者其中一个为1才可以执行广播操作。

比如说刚才我们创建的arry数组的shape是(3, 2)，我们可以让它和一个大小是(1, 2)或者是(3, 1)的“小数组”进行运算，这同样是支持的。

如果你看不明白上面的计算过程，我下面用一张图做一下演示。

从图中可以看到左边的数组shape是(2, 3)，右边的数组shape是(2, 1)，满足Numpy对于广播机制的要求。Numpy会自动对右边数组shape为1的维度进行广播，也就是将它复制若干份使得它们的shape相等。如果你把左边的数组看成是若干个听广播的人，右侧的数组看成是消息的话，那么广播机制就是把消息复制若干份，让每一个听广播的人听到同样的内容。所以这个名字还是很形象的。

切片

Python中数组为人称道的很重要的一点就是它的切片操作非常方便，Numpy作为依托于Python的计算包，自然也继承了这一点，所以在Numpy当中，我们也可以很方便地使用切片功能。切片的使用方法和Python基本是一样的。

我们用上下标加上冒号来表示我们想要切片的范围，和Python一样，这是一个左闭右开的区间。

我们也可以省略其中的一个范围，只提供上界或者是下界：

我们还可以上下界都省略，表示全部都要，以及倒序切片的方法也和Python是一样的。

但是有一点不太一样，Numpy中的切片和golang中的切片比较像，它代表原数组一段区间的引用，而不是拷贝。也就是说我们修改切片中的内容是会影响原数组的，我们对一个切片赋值，明显可以发现原数组的对应位置发生了改变。

这么设计的原因和golang是一样的，因为Numpy是为了大数据计算而诞生的，大数据计算显然性能是一个非常重要的考量指标。如果这里不是设计成引用，而是拷贝的话，那么当一个大的切片产生的时候，必然会涉及到大量拷贝的操作。不仅非常消耗内存，并且也会占用大量计算资源。如果使用引用可以非常快速地返回结果。

golang当中如此设计，也是一样的道理。

那问题来了，如果我们想要拷贝出一份切片出来，而不是获得一个切片应该怎么办？答案也很简单，我们可以调用copy方法，获取一份拷贝。

arr[3:10].copy()

索引

理解了切片的用法之后，我们接下来看看索引。索引也是Numpy当中非常重要的概念，应用也非常普遍。

Numpy当中的索引对应数组中的维度，比如一个二维的数组，当我们用下标访问的时候，获得的其实是一个一维的数组。所以如果我们想要访问一个具体的元素的时候，能做的就是继续往下指定下标：

这个很好理解，和Python当中的多维数组的用法是一样的。上面我们用了两个方括号去锁定一个元素的位置，为了写起来方便，我们还可以用逗号分隔查询。友情提醒，Python原生的数组并不支持这样的操作，不要搞混哦。

同样的道理，如果是多维的数组也是一样的，我们依次写出从0到k维的坐标来获取一个固定的元素。如果我们给出的坐标信息较少，那么则会获得一个数组。

拿3维数组举例，如果我们访问的时候只用一个下标，那么我们获得的是一个二维数组。如果使用两个下标，则获得的是一个一维数组。对于更高的维度也是同样。

结尾

今天的文章我们一起了解了Numpy当中常见的计算api以及广播和索引机制，关于索引的使用今天只是开了个头，还有很多非常灵活的用法，由于篇幅的限制，我们分成了多篇文章，会在之后的文章当中一一介绍。

今天介绍的也是Numpy的基础内容，除了广播机制稍稍需要思考一下之外，其余的应该都非常简单，我相信大家都能看明白。Numpy之所以普及，除了速度快之外，api简单易用，学习成本低也是很大的特点。

关注我，获取更多精彩文章。