音视频技术的迭代演进：AI技术给音视频带来哪些黑科技？ - 科技行业那点事儿 - 科技资讯网|科技新闻网--最新最快科技新闻发布汇集平台。

　　出品 | 搜狐科技

　　作者 | 张雅婷

　　1872年英国摄影师麦布里奇借助24台相机，连续拍摄24张马奔跑时的照片，创造出人类历史上第一个视频。5年后，发明家爱迪生在留声机录音实验时，记录了《玛丽有只小羊羔》的歌词，创造出历史上第一条音频。

　　伴随着技术更迭，音视频如今已经成为文字、图片之外最重要的信息传播媒介，渗透进大家生活的方方面面，成为人们获取及发布信息的重要方式。

　　艾瑞咨询指出，用户创作音视频成为移动互联网的主导内容形态。其中，短视频平均月活跃设备数甚至超过了10亿，用户使用时长占比近30％。

　　我们已经处于音视频媒体包围的当下，音视频技术也成为了不可或缺的社会基础设施，在长短视频、直播、在线会议等多种应用场景中发挥着重要作用。

　　在更低时延、更清晰、更具沉浸感的目标之下，音视频技术发展的趋势是什么？遇到了哪些挑战？搜狐科技《对话》栏目邀请到复旦大学教授、博士生导师姜育刚以及华为算法应用技术专家、开发部长Peter，一起交流音视频技术最前沿的动态。

　　姜育刚表示，人工智能在实时音视频处理方面正发挥着重要作用，比如视频编解码、虚拟背景、视频超分辨率等。

　　以编码为例，传统的H.264、H.265等技术都是人工设计的方案。姜育刚表示，最近趋势是基于深度学习的编码方法。

　　“跟传统的方法相比，这是一种数据驱动的方法，这里面主要的难点是如何在编码中嵌入视频中的运动信息，最近一些利用编码器-解码器等比较新的网络架构就实现了比传统方法更好的编码。”

　　在Peter看来，当前音视频领域非常显著的技术趋势是超高清技术的持续升级，3D空间音频、HDR技术在移动终端上有了更好的应用。不过，由于手机终端屏幕大小有限制，用户感受不到8K高清技术。“在8K高清技术的采集、制作、存储、传输上，仍然需要技术进一步突破，成本降低，才能广泛普及。”

　　以下为访谈实录：

　　一、音视频技术发展现状及趋势

　　搜狐科技：音视频技术实际上是音频技术和视频技术的一个统称，能否讲一讲音频技术与视频技术之间的关系，以及在近年的发展趋势？

　　Peter：音频和视频技术分别有自己的产品形态，侧重于与不同使用领域。在用户视角，视频技术会包含音频技术，因此我们通常会把音视频媒体技术放在一起研究。

　　当前非常显著的技术趋势是超高清技术持续快速升级，3D空间音频、HDR技术在移动终端上应用。中国超高清联盟UWA也主导制定了中国自己的超高清CUVA标准，这也将进一步带动更多的终端智能设备支持。

　　搜狐科技：HMS Core在音视频技术的布局主要集中在哪些方向，希望给开发者和用户带来什么？

　　Peter：HMS Core围绕音视频媒体采集、编、播、传、存开放了6个Kit，一方面是把华为终端硬件创新的高清相机、音视频媒体编解码能力开放给开发者，另一方面，我们也通过AI与音视频媒体结合，开放了人脸遮挡、人像抠图、AI智能着色、精彩镜头提取、人像动态虚影、AI配音、歌声合成等技术能力。

　　随着移动终端的算力不断增强，越来越多的专业级编辑能力、高端影院级视听体验不断向终端迁移，我们希望在满足用户不断增长的高清、高品质、沉浸感的视听体验需求，也逐渐赋予移动终端生产力工具属性。

　　搜狐科技：更高清晰度，是视频行业永恒的追求，不过目前超高清视频用户占比仍较小。想请教两位专家，这其中有哪些技术、应用难点是尚未解决的？

　　姜育刚：超高清视频分辨率非常高，帧率也非常高，会占掉很多的存储空间，也对网络传输带来了新的挑战。

　　另外一方面，很多视频网站需要对视频进行分析，从而实现更好的推荐、检索，如果要对高清视频处理与分析，需要的计算资源则会更多。

　　Peter：在手机终端上受限于终端屏幕大小限制，8K高清技术用户感受不到，制约了用户需求。在8K高清技术的采集、制作、存储、传输上，仍然需要技术进一步突破，成本降低，才能广泛普及。

　　二、人工智能如何赋能音视频技术

　　搜狐科技：去年初，WebRTC也成为了W3C的正式标准，实时音视频成为行业热点。与此同时人工智能技术在自动驾驶、语音识别等领域都取得了巨大的成功，人工智能技术在实时音视频处理中有何应用？

　　姜育刚：首先是视频的编解码，最早的视频编解码像H.264、H.265等都是基于人工设计的一些方案，最近涌现了很多基于深度学习的编解码方式，效果更好。

　　第二是虚拟背景，大家线上开会时经常会使用虚拟背景功能，这背后主要是语义分割技术，通过将图片中的前景分割出来，对背景图片进行替换得以实现。静态图像的语义分割是比较简单的，但是在实时的视频会议中，人可能会动，与摄像头的距离时远时近，所以人物的边缘如何分割准确是一大难点。

　　第三是视频超分辨率，基于深度学习的超分辨率技术，将比较模糊的视频变清晰，这样可以在带宽有限的情况下，依然获得高分辨率的视频。

　　搜狐科技：随着视频分辨率不断提高，带宽成本也越来越大，两位老师能否分别从工业界和学界的角度，说一说基于人工智能的编码与实时分析的作用以及发展情况。

　　姜育刚：对编码而言，传统的H.264、H.265等技术都是人工设计的方案，最近的一些趋势是利用深度学习得到高效的编码方法。这里面主要的难点是如何在编码中嵌入视频中的运动信息，最近一些利用编码器-解码器等比较新的网络架构就实现了比传统方法更好的编码。

　　在实时视频处理中部署深度网络，最大的挑战是如何减少深度网络的计算成本。目前一个很重要的研究方向是模型压缩，主要涉及的技术包括量化、剪枝、知识蒸馏等方式，目的就是将大网络压缩成一个紧凑的小网络从而能够实现快速高效的视频分析。

　　Peter：通过显著性区域编解码技术，在不影响用户观感的情况下大幅度压缩视频空间，这项技术部分已经成熟商用。在传输上采用低码高清的超分、插帧技术也广泛应用到视频分发播放领域。当前H.266编码技术已经取得进展，会逐步成熟商用。未来随着H.266编解码硬化芯片的增多，也就会有更多的内容采用H.266编码技术。

　　搜狐科技：除了在编码领域，AI在视频的内容分析等方面也发挥出重要的作用，比如动作识别、动作定位等等，这些算法有什么应用场景？

　　姜育刚：动作识别的目标是识别出视频中出现的动作类型；时序动作定位可以看作由两个子任务组成，一个子任务是预测动作的起止时序区间，另一个子任务是预测动作的类别。

　　最近比较热门的一个方向是基于语言的动作定位，根据文本查询从对应视频中找到具体视频片段。比如一段很长的监控视频，我们想找到“穿红衣服的跑步的小孩子”对应的视频，这就是基于语言的动作定位。这样的技术在视频编辑、视频搜索、安防监控等关键领域有着重要的作用。

　　搜狐科技：在提高视频分辨率方面，视频超分算法发挥着非常大的作用。从业界来看，视频超分算法的落地情况如何？存在什么挑战？

　　Peter：实时视频超分算法需要非常大的算力支撑，当前华为在具有NPU的移动设备上已经支持了视频超分技术，可以支持每秒30帧的2倍超分。另一方面，超分算法采用了AI技术，非常依赖训练的数据集规模和多样性，当前超分只能在已有数据集特定领域做到比较好，泛化到其他领域仍然存在挑战。

　　搜狐科技：SRCNN是深度学习用在超分辨率重建上的开山之作，近年来也有更多超分算法模型“面世”。视频超分与视频内容分析有何区别和联系，它是否可以帮助实现更好的视频内容分析？

　　姜育刚：视频超分与视频增强、去噪等类似，是一种底层视觉任务，在一定程度上可视为一个可以帮助高层语义理解、识别等的预处理任务。因此，采用了合适的超分技术可以让视频的细节更为清晰，可以帮助更好的实现对视频内容的高层语义分析。

　　搜狐科技：未来，我们需要更具“沉浸式体验”的人机交互。面向VR\AR设备的音视频技术会面临什么不一样的需求和挑战？

　　姜育刚：在内容生成方面，AR/VR设备都是沉浸式的，会导致用户疲劳。技术上需要考虑渲染出的场面亮度、对比度、内容、色彩是否合适，音量大小是否合适。

　　在内容分析方面，当我们戴着AR/VR设备与周围环境进行交互时，视角会产生很大的变化，这给视频的实时处理和分析带来了很大的挑战。

　　我们传统的视频分析与理解基本上都是面向第三视角的互联网视频，而元宇宙中视角跟传统的视频不太一样。比如说第三视角人在做饭的视频中，手不会成为视频的主体，但带着穿戴设备跟周围的环境进行交互的时候，手会占着画面的主体，这样视角的变化会导致现有的深度学习模型性能大幅度降低。

　　总结而言，姜育刚和刘成华两位嘉宾都认为，更高清晰度是音视频领域永恒的追求。但由于超高清视频分辨率和帧率非常高，对存储、网络传输都带来了新的挑战。

　　所以，超高清视频用户占比仍然相对较小，8K高清技术的采集、制作、存储、传输仍然需要技术进一步突破。

　　在音视频技术的迭代演进上，与人工智能的结合是一大发展趋势。当前，通过视频超分算法提高视频分辨率，基于人工智能进行编码与实时分析，都成为了学界和工业界关注的热点。