只有5G而没有视频压缩,那么多媒体传输一切都是0

1,909 阅读12分钟

导语 | 2019年9月7日,腾讯技术开放日·5G多媒体专场在腾讯滨海大厦完美落幕。来自腾讯多媒体实验室的专家们给大家带来了关于5G技术和标准的精彩分享,揭开了许多关于5G的谜团。本文重点给大家讲解5G时代下多媒体标准、多媒体压缩前沿技术的标准化,以及面向未来的多媒体系统架构。

作者简介

赵帅博士,腾讯5G&多媒体标准专家。赵帅博士2019年初加入腾讯美国公司,担任腾讯5G和多媒体标准专家。赵博士获得美国密苏里大学堪萨斯分校的研究生和博士学位,专注于计算机网络和多媒体系统标准于传输领域,在数多国际期刊都有文章发表,IETF RTP VVC负载格式编辑。

一、5G下,多媒体为什么要做标准化?

在5G下,多媒体产业链全景图跟4G LTE包括以太网差不多。现在社会上有很多一些错误的宣传认识,大家认为有了5G后可以无限制地在网上畅游。但其实,网上畅游的体验,很多时候完全取决于5G运营商给老百姓提供的真实网络实现。多媒体产业链,基本是从有视频源开始,有了视频源后就有了视频压缩的技术和算法,有算法之后需要标准化。

多媒体的标准化包含两大块:多媒体压缩技术标准化(后文会重点讲)、多媒体系统传输标准化(包括3GPP和IETF的网络传输协议)。有了标准定义后,直接有标准的产出,面向消费者或者网络运营商。

为什么要做标准?有以下四点原因:

一是互联互通。保证各个厂商在指定多媒体5G标准下,各个设备之间可以互联互通。这是做标准最基本的原理。

二是防止垄断。因为这样各个公司可以相互参加,每一个公司都会把自己的技术放在里面,保证技术的共享。

三是保证技术的先进性。比如参加5G国际标准制定时,不但可以把自己的技术贡献出去,更重要的是可以学习别人的技术,保证了我们技术的先进性。

四是做标准有两个重要的作用:一是知识产权,实现商业化。有专利后把专利应用在产品上,任何人要买这个产品时就要付专利费。比如现在任何手机制造商产一个手机时都要给高通付钱,这是专利产品的价值。另外是防御性,很多专利产生时目的并不是为了产生商业价值,而是保护自己。作为腾讯,很多专利的制定并不是非得用这个专利卖钱,很多时候是保护措施。我们有这样的专利,别的公司就不会通过专利投诉方式来控告我们,因为我们有自己的知识产权。

二、5G下,媒体应用所面临对挑战

视频流量一直是占领网络流量的先驱,在5G趋势下会只增不减。思科公司预测的2017年到2020年全国以IP为基础的视频流量百分比,到2020年视频流量百分比可以达到82%,到2020年82%的流量是视频传输,包括视频会议、小视频、云游戏类似的服务。

而5G下,媒体应用也面临着多种挑战。

一是新兴媒体格式的出现,包括4K、8K等。另外是新兴媒体的体验,比如沉浸式媒体、增强现实AR、云游戏等都需要很强的带宽和低延时等网络的需求。比如自动驾驶,需要很高的网络可靠性。控制的连接设备、新兴媒体的运营模式,OTT运营比如像YouTube、NetFlix,国内的优酷等。美国NeFflix在高峰期时视频流量可以占全球65%。随着网络带宽越来越高,视频流量会越来越高,我们想要体验更高的多媒体流量只会越来越难。

三、5G下重要的新兴媒体格式:8K

  1. 为什么说8K是5G下重要的新兴媒体格式?

现在很多人提到8K,8K对我们来说到底意味着什么?——8K意味着全方位视频体验的提升,一是分辨率,二是亮度,三是色彩位数,8位或者10位,然后是帧率。

8K分辨率是708x~4320,这比普通高清上升5-6个维度,意味着看到的像素更多,更清晰。

SDR和HDR是图像亮度的标准。亮度的单位nit。人眼对亮度可以识别0.01到2万nit。HDR之前用的是SDR,是100nit,跟人眼可以看到2万nit比起来还是很小的。HDR是SDR的10倍大约是1000nit,图像更加清晰更加好。8K出现后,HDR可能达到5000或者1万。但随着8K不断推广,HDR技术不断提高,人肉眼看图像亮度时更加亮。

但是,普通视频是8位表示一个像素,8位是256种颜色;而有了8K后,10位或者12位是一个趋势,10位是一个像素有1024种颜色,12位更很多了。颜色越多,意味着看的色彩越鲜艳。这对我们来讲,更重要的是这表示每一个视频、像素的分量就很重,最终落实到一个视频的文件大小,这个文件就会越来越大。

网络看视频大约在30帧每秒,在1秒里可以看30个图片。人的肉眼对快速移动的图片是分辨不清的。到8K后会支持到60帧一秒或者120、180。在一段时间内看图片的帧率会越来越多。这样看到的视频就会越来越平滑。现在看大片,慢动作,那个就是用高帧率拍,比如1秒钟拍了100个图片,在5秒钟内放出来,这就是慢动作释放的原理。

给大家看一下8k视频文件的大小。如果一个像素是15个bit(这个是比较保守,最可能该是30bit甚至更大),那么不经过压缩的一个120帧每秒的8K的视频1秒大约是60G。如果按照如压缩1000:1,压缩后60M左右。

我们国家在8K的发展和普及相对落后,日本和韩国跑得相对快。日本将会在2020年用8K直播。中国在2022年冬奥会时也会用4K和8K结合的形式直播,相信那个时候很多8K支持的设备、网络协议、5G技术都会相对成熟一点。

2 .关于8K标准的制定,不得不提8K工业联盟

腾讯多媒体实验室在今年8月份时,成功加入了8K工业联盟,成为了董事会一席。这意味着腾讯在8K未来发展时有一定的话语权,可以参与制定8K的标准,在推动8K在未来5G网络下起到非常主导的作用。

四、5G多媒体压缩技术前沿

如果只有5G,而没有视频压缩,那对于多媒体来说传输一切都是0。所以,这里我再讲一下腾讯多媒体实验室最重要的技术——视频压缩技术。

  1. VVC(H266)视频压缩标准简介

简单讲一下视频压缩技术的演进:2003年AVC(H264)编码标准正式发布。2013年时到了HEVC(H265)。每一次视频压缩技术的迭代,都会比上一次主观上提高50%左右,客观上提高30%。客观是通过数学统计,主观是人眼看,最后综合下来有40%~50%的提高。

而VVC(H266)是腾讯多媒体实验室正在积极参与制定的。VVC在HEVC上客观节省33%,主观是40%~50%。腾讯多媒体实验室在很短时间内有几十项专利被研发,并且好几个位成员都在VVC里承担主席席位。

VVC视频编码架构跟HEVC基本一样,但为什么它会提高?在某些算法上经过前十年包括硬件的支持,算法上有优化、提高,在整体视频压缩基础上有客观上30%的提高和主观上50%的提高。

整个VVC包括HEVC在处理视频压缩时,根据最简单的视频播放道理,短时间内看很多照片,视频压缩分两个方向:帧内压缩和帧间压缩。

帧间压缩是根据不同图片之间的差别,把这几个照片放在一块进行压缩。HEVC只支持一种方法,VVC支持四种方法。在压缩时提供更多可能性,更大的提高了压缩的速率。

帧内压缩是在一个图片内找到相似点压缩。HEVC支持33种方向,但VVC可以支持65个方向,可以提高预测和压缩的准确性。VVC支持更多帧内预测技术比如MRL,支持多条线预测。

处理完帧间和帧内预测后,下一步做数学运算,把所预测的根据数学的离散正弦、离散余弦。这两个是压缩里比较常用的技术。HEVC只支持离散余弦,VVC支持离散余弦和离散正弦。把所有像素转成数字后,做数学运算,最后做无损压缩。视频压缩原理,就是把大数据变成小数据,文件大小就会降低。

  1. 腾讯多媒体实验室关于VVC技术落地总结和成果

现在VVC比之前做的HEVC视频压缩客观上33%左右,主观上50%。我们在相同感官条件下,视频文件已经少了一半。

VVC应用的场景很多,对腾讯内部来说有各种社交类,微信,腾讯视频,云游戏等。

截止到2016年6月份,腾讯VVC视频压缩技术是全球第三,而且是用了不到两年时间。

另外还有一个重要的成果,腾讯开发的《王者荣耀》被加入到VVC测试序列,可以更好的压缩游戏,这个意义对腾讯是非常大的。

  1. 腾讯多媒体实验室标准落地现状

在简单总结了标准制定的成果后,我们再来看一下腾讯多媒体实验室标准落地现状。

这里重点讲一下云游戏。云游戏跟传统游戏最大的不同是传统玩游戏时要买游戏然后下载然后安装,要补丁就要下载补丁。云游戏是任何处理都在云端服务器端,不需要下载,你需要的是注册一个帐号,可以用任何设备,比如电脑、手机同时玩这个游戏。你现在坐在这儿玩,突然要起来,拿着手机可以接着玩。这是云游戏为我们带来的新的用户体验。现在全世界做云游戏的公司有谷歌、Microsoft,腾讯是第三个。现在在深圳、上海已经测试。

云游戏是视频压缩技术很大的应用场景,包括前面说的IETF里包括QUIC等很多网络传输标准。你的游戏安装都在云端,云端把游戏渲染,渲染之后以视频形式通过网络传输给客户端,客户端不需要维护、下载、安装游戏,也不需要打补丁,服务器已经帮你处理完,你需要的是像看一个电影一样玩游戏,这是非常不一样的游戏用户体验。另外,多媒体实验室研发的TPG图片压缩技术,从主观上分不出区别的前提下文件数量少了十几倍,这使文件传输到云端会减少很多带宽。

  1. 关于解码标准

前面讲了我们主要做视频压缩编码标准,现在我们也在做结合标准,把标准做到编码器里,就可以直接产生商业化。我们不仅做编码也做解码,解码就是在客户端里播放这个视频,编码是把视频源压缩。同时,我们也在维护一些免费的标准,像VP9、AV1,做一些自己的贡献,促进视频压缩生态圈健康发展下去。

五、面向未来的多媒体系统架构:异构计算

异构计算,就是用不同的结构做计算。这个概念并不是很新,在上世纪90年代已经有异构计算的概念,但当时硬件支持也并不是很好,所以一直没有发展下去,最近十年人工智能、机器学习、深度学习、自动驾驶这些人工智能产品落地,对不同计算的要求提高了一个档次。再加上摩尔定律,现在芯片制造厂商已经很难很难在短时间内把芯片速率提高。

我们已经见过异构结构,平时玩游戏装单独的CPU,或者CPU和GPU结合就是异构的一种。现在随着计算要求提高,比如云游戏,在云端需要大量GPU,把游戏压缩成视频再传输到客户端。如果只是用CPU,根本做不到,现在用GPU包括FPGA,把所有能运算的结构放在一起,让它们共同运转。比如CPU更好做的是缓存、处理,GPU可以做更好的运行处理。把不同计算的兆放到不同模块,实现更好的异构结构。多媒体实验室在这方面有很大的投入,比如跟很多芯片厂商合作,把我们自己的编解码技术标准做到他们的芯片里,来为腾讯的业务服务。