音视频行业已经发展很多年了，随着近几年移动端越来越多的音视频APP的出现，将音视频推向一个高潮，但是由于音视频的学习成本很高，很多开发者望而却步，为了跟紧时代的步伐，我写了这篇音视频基础，讲解了音视频的相关知识，给大家破除音视频的“高门槛”，希望可以共同进步。

音频

将声音保存成音频的过程，其实就是将模拟音频数字化的过程，为了实现这个过程，就需要对模拟音频进行采样、量化和编码。接下来我们详细讲解这一过程。

采样

采样是将信号从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程(离散就是不连续)，根据著名的奈奎斯特定理，需要按声音最高频率2倍进行采样，人耳能听到的声音是20Hz～20kHz，所以一般针对声音的采样率是44.1KHz（为什么是44.1KHz呢，而不是40KHz？因为经过尝试使用这个采样率进行采样效果最好）。下面列表一些其他的采样率，可作为参考。

8,000 Hz - 电话所用采样率，对于人的说话已经足够
11,025 Hz
22,050 Hz - 无线电广播所用采样率
32,000 Hz - miniDV数字视频camcorder、DAT（LP mode）所用采样率
44,100 Hz - 音频CD,也常用于MPEG-1音频（VCD, SVCD, MP3）所用采样率
47,250 Hz - Nippon Columbia（Denon）开发的世界上第一个商用PCM录音机所用采样率
48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
50,400 Hz - 三菱X-80数字录音机所用所用采样率
96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc（蓝光光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率
2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。

如上图所示就是一个采样的过程，将模拟音频在连续的时间域上，切割成不连续的时间域的信号过程，即是对x轴的操作。那么有x轴就有y轴，实际上对y轴的操作就是量化。

量化

量化是什么？就是要将上面分割的信息用具体的数据来进行表示，用形象的话来说，就是给每个x时间轴，对应其y轴的变化数值。那么我们要表示一段声音的具体值，肯定就需要先分配一个可变化区间(这个区间就叫做量化格式)，二进制中的１个单位就是一个比特，通常有８比特，16比特，32比特。

这里还需引入分贝(单位db)的概念：是描述声音大小的单位，人耳承受的dB范围是：0～90dB，0dB是人耳能听到的最微弱的的声音，在90dB环境中听力会受到严重影响。经过研究，1个比特可以大约记录6分贝的声音，那么我可以得出下图的数据

单位	范围	dB
8比特	0～2^8-1 <=> 0～255	0～48
16比特	0～2^16-1 <=> 0～65535	0～96
32比特	0～2^32 -1 <=> 0～4294967295	0～192

由上可知，一般我们使用16比特，因为其有0～65535中变化，而且刚好符合人对声音大小的范围，而8比特处理音频，只有0～255中变化，变化不能够被很精细的记录下来，那为什么不使用32比特呢？这是因为32位太消耗存储了，当然如果想使音频更加精细，也是可以使用32比特的。由于量化是建立在采样的基础上的，所有一个量化就对应一个采样，那么我们怎么存储呢？这就会涉及到下面的编码了。

声道

什么是声道呢？声道就是声源，意思就是声音的来源，常见的有Mono和Stereo。

Mono 单声道，单个声源，很多地方已被Stereo取代
Stereo 立体声，2个及以上多个声源

当我们站在不同位置听单声道时，它呈现的效果是不一样的，而立体声则不然，在不同方向仍可保持自然与悦耳，现在CD一般都是双声道立体声，那声道数就是2个。

音频编码

所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储空间了。从宏观上可以分成两类：压缩编码和非压缩编码。

一个存储的格式有很多种，通常音频裸数据即是我们所说的PCM，也叫脉冲编码调制（英语：Pulse-code modulation，缩写：PCM）是一种模拟信号的数字化方法，它是一种非压缩编码格式。通常描述一段PCM数据需要以下几个概念:

量化格式 - SampleFormat，默认16比特
采样率 - SampleRate，默认44.1KHz
声道数 - Channel ，默认2个

一般我们使用码率来描述音频，即是1秒内吞吐量，单位bps ：

码率 = 采样率 * 量化格式 * 声道数

如上，我们就可以得出：码率 = 44100 * 16 * 2 = 1411200 bps = 1411.2 kbps 还可以得出1分钟数据大小：1411.2 * 60 / 8 / 1024 = 10.34M

下图是我从一个mp3格式上获取的基本信息，可以看到量化格式、采样率和声道数都是一样的，但是它的码率却是 320kbps，这与我们上面计算公式得出的结论不一致呀？这就是涉及到压缩编码格式了。

Duration: 00:00:39.99, start: 0.011995, bitrate: 320 kb/s
Stream #0:0: Audio: mp3, 44100 Hz, stereo, s16p, 320 kb/s

压缩编码就是对数据进行压缩，压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等，一般压缩分为两种：

有损压缩，数据经过压缩后，信息不受损失，还能完全恢复到压缩前的原样
无损压缩，经过此方法压缩、解压的数据会与原始数据不同但是非常接近

在音乐应用中，我们经常看到“无损音乐”，如果你发现它是mp3格式的，那么它一定是有损压缩，也就是我们所说的假无损。常见的有损压缩如下：

MP2
MP3
AAC
WMA
ADPCM
ATRAC
Dolby AC-3
Musepack
Ogg Vorbis
Opus
LDAC

视频

说完音频，我们来说说视频，首先得说说视频是什么？我们都知道视频是由一帧一帧联系图像构成的，所以再介绍视频之前，先得了解一下什么是图像？

图像

我们从小学习物理知识就知道，通过三菱镜就可以将光色散成不同的颜色，经过进一步研究发现，只有红(R)、绿(G)、蓝(B)不能被分解，所以它们被称为光的三原色。

一般我们买手机的时候会参考它的分辨率，当然是分辨率越大越好，因为越大越清晰，更接近事物的原始样貌，那这是为什么呢？

其实为了让人能够在手机上感知图像，也采用了这样的RGB模式。以“1080x1920”为例，那就是每一个横向就有1080个像素点，纵向有1920个像素点，那总共就有1080x1920=2073600个像素。每一个像素又包含了红(R)、绿(G)、蓝(B)三个子像素，这样每个像素就可以有自己的全部颜色呈现。

图像表示

我们知道红(R)、绿(G)、蓝(B)都可以使用00～FF或者0～255表示，由上面我们知道8比特刚好可以表示0～255，一个像素又包含了红(R)、绿(G)、蓝(B)三个子像素，那一个像素至少需要24位，我们一般还要给颜色加上一个不透明度(A)，所以一个像素其实是32位，这种表示方式就是我们常用的RGBA_8888，那如果一张图片要在上面分辨率的手机上全屏展示出来需要多大的空间呢？

1080*1920*4 = 8294400b = 8100kb = 7.91Mb

这也是位图（bitmap）在内存中所占用的大小，每一张图像的裸数据都是很大的，所以在手机上如果直接加载bitmap的话，很快就会内存溢出。所以如果让图像直接在网络上行走的话肯定是不行的，一般都会进行一个压缩，常见的压缩格式有：

BMP - 无损压缩
PNG - 无损压缩
JPEG - 有损压缩

这是就是为什么在制作小图（比如icon）的时候使用png格式，而大图采用jpeg的原因，小图经过无损压缩放大之后不让其太过模糊，大图保证其能够清晰即可。

视频表示

视频的裸数据我们一般使用YUV来进行表示，YUV也是一种颜色编码方式，为什么不使用RGB呢？与RGB视频信号传输相比，它最大的优点在于只需要占用极少的频宽（RGB要求三个独立的视频信号同时传输）

“Y”表示明亮度（Luminance、Luma），也称灰阶值；“U”和“V”则是色度，它们的作用是描述影像的色彩及饱和度，用于指定像素的颜色。如果忽略掉UV，那就是只剩下灰(Y)，那就跟以前黑白电视机信号一样了，所以YUV的发明了是为了从黑白电视过渡彩色电视而发明的。

UV又由Cb和Cr来描述，Cb反映的则是RGB输入信号蓝色部分与RGB信号亮度值之间的差异，而Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异。UV信号告诉了显示器使得某个颜色亮度依某个基准偏移， UV的值越高，代表该像素会有更饱和的颜色。

为节省带宽起见，大多数YUV格式平均使用的每像素位数都少于24位。主要的抽样（subsample）格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和YCbCr 4:4:4。YUV的表示法称为A:B:C表示法：

4:4:4表示完全取样，与RGB类似
4:2:2表示2:1的水平取样，垂直完全采样。
4:2:0表示2:1的水平取样，垂直2：1采样。
4:1:1表示4:1的水平取样，垂直完全采样。

我们再对1080x1920手机上展示视频一帧的数据量大小如下：

YUV格式	大小（1080x1920分辨率）
444	1080* 1920* 3=6220800b = 6075 kb = 5.93Mb
422	1080* 1920* (1+0.5+0.5) = 4147200 b = 4050 kb = 3.96Mb
420	1080* 1920* (1+0.5+0) = 3110400 b = 3037.5 kb = 2.97Mb
411	1080* 1920* (1+0.25+0.25) = 3110400 b = 3037.5 kb = 2.97Mb

从上图中我们可以看到，如果使用YUV420一帧会比直接使用RGB少了近3M，这也就是为什么使用YUV而不是用RGB的主要原因。

需要注意点是一般视频都是使用的YUV4:2:0，YUV4:2:0并不是说只有U（即Cb）, V（即Cr）一定为0，而是指U：V互相援引，时见时隐，也就是说对于每一个行，只有一个U或者V分量，如果一行是4:2:0的话，下一行就是4:0:2，再下一行是4:2:0...以此类推。

怎么让YUV转化成RGB数据在手机上呈现呢？这就需要一个转化公式了

到此我们就知道视频是怎么回事了，视频的是由一帧一帧图像组成，一帧图像又是由YUV裸数据组成，而YUV裸数据是可以与RGB互相转化的，最终呈现在手机上的是转化后的RGB。

视频编码

在介绍编码之前，我们先介绍两个概念：

帧率（fps） - 测量单位时间(s)显示的帧数，一般视频中使用24fps就可以了。对于游戏来讲，如果帧率少于30fps就会出现不连贯，也就是我们平常说的卡顿。
比特率 - 测量单位时间(s)数据量大小。

我们就可以计算一下在1080* 1920的手机上播放YUV420视频数据的比特率：

bitRate = 1080* 1920* (1+0.5+0)* 24 = 71.2 Mbps

还可以得出90分钟电影数据量:

total = bitRate * 60 * 90 = 375.42 GB

这对于我们来说是肯定不能接受的，所以就必须对其进行编码，跟音频编码类似，一般采用压缩编码，不然就没得玩咯～

与音频编码不同，视频数据之间有很强的关联性，也就是由大量的冗余信息，包括时间上的冗余信息和空间上的冗余信息。

时间上的冗余信息（temporal redundancy）- 在视频数据中，相邻的帧（frame）与帧之间通常有很强的关连性，这样的关连性即为时间上的冗余信息。
空间上的冗余信息（spatial redundancy）- 在同一张帧之中，相邻的像素之间通常有很强的关连性，这样的关连性即为空间上的冗余信息。

现在常见的视频编码有两个系列：

MPEG系列 - 包括 Mpeg1（用于VCD）、Mpeg2（用于DVD）、Mpeg4 AVC（现在流媒体使用最多的就是它了）
H.26x系列 - 包括 H.261、H.262、H.263、H.264（现在视频使用的最多就是它了）

IPB帧

MPEG定义了I帧、P帧、B帧，并根据不同帧实现了不同的压缩算法

I帧 - 帧内编码帧，就是通过压缩算法压成一张单独的完整视频画面，也是一组的第一帧，所以I帧去掉的是视频帧在空间维度上的冗余信息。
P帧 - 前向预测编码帧，需要参考其前面的一个I帧或者P帧来解码成一张完整的视频画面。
B帧 - 双向预测内插编码帧，需要参考其前一个I帧或者P帧及其后面的一个P帧来生成一张完整的视频画面,所以P帧与B帧去掉的是视频帧在时间维度上的冗余信息。

注意：在I帧中有一个特殊的帧IDR，它也是一个I帧，如果在视频编码过程中出现一个IDR帧，那么就意味着之后所有的帧不能再参考前面的帧了，其作用就相当于一个分水岭。

前面我们说到，视频是由一系列图像组成，每个图像就是一帧。图像是一组一组处理的，一组帧常用的结构由15个帧组成，具有IBBPBBPBBPBBPBB形式，一组帧又叫GOP，可以参考下图

从上图可以看到解码顺序和显示顺序是不一样的，但是如果没有B帧的话，那就是相同的了。

以上就是音视频基础的相关内容，如有不明白或者不正确的地方，请在下方评论区留言，望共勉之。

参考

音视频开发进阶指南:基于Android与iOS平台的实践

Android音视频开发:踩一踩“门槛”

音频

采样

量化

声道

音频编码

视频

图像

图像表示

视频表示

视频编码

IPB帧

参考