引言
2020年7月17日,“全真互联网中的声与影”腾讯云TVP音视频技术闭门会完美收官。TVP技术闭门会,是为腾讯云TVP打造的专属技术闭门研讨会,旨在提供一个开放、平等、知无不言的交流环境,便于TVP针对热门技术话题、前沿科技、技术管理等话题进行深入探讨,促进TVP之间,TVP与腾讯内部团队之间的相互交流与学习。
25位腾讯云TVP专家及腾讯专家齐聚上海腾云大厦,开启腾云之旅,在精彩纷呈的技术分享与观点交锋的热点话题探讨中,共话音视频领域前沿趋势,描绘全真互联网时代的发展蓝图。
参会TVP专家与腾讯专家合影
视频生成与合成技术的新进展
线上会议、在线教育、电商直播等多个场景的兴起,使得视频实时生成技术从幕后走到台前,受到了更多的关注。上海交通大学图像所副所长、腾讯云TVP宋利,从学术界的视角,带来了《视频生成与合成技术的新进展》。
上海交通大学图像所副所长、腾讯云TVP宋利
在分享中,宋利首先对音视频技术发展的整体趋势做出了高屋建瓴的解读——技术飞速发展,已从传统的视频编解码处理,向合成、生成、创造进化。图形学+计算视觉+深度学习的综合开启了新思路。
随后,宋利分享了基于生成模型的视频编解码、图像和谐化、自由视角、视频的深度特征表达等四项前沿技术的最新研究成果。
基于生成模型的视频编解码:针对视频会议等背景和姿态较为固定的场景,在编码端只传输人脸关键点信息;在云端建立关键帧池,根据视觉敏感性将人脸分为敏感区域和非敏感区域,分别进行特征提取;在解码端利用生成对抗网络生成目标视频帧,可实现高质量,低带宽的编解码方案。
图像和谐化:其核心思想是从背景中深度学习特征,将它应用到前景特征上,同时也让背景从前景中学习,从而生成在色调、亮度、饱和度等视觉特征上更和谐的组合图像。
自由视角:是指在场景周围架设多台摄像机采集视频流,使得用户可以平滑无缝地选择观看视角,获得仿佛在现场自由穿梭的新体验。目前常用于体育赛事、综艺表演等,比如在今年的东京奥运会转播中就有应用。随后,宋利详尽地解析了自由视角的三种技术实现路线:DIBR、3D模型以及NeRF。
视频的深度特征表达:最后,宋利还介绍了特征域处理如何为传统视频带来无限表达自由,包括从压缩图像中学习的视频生成、视频下一步行动预测、基于关键帧的视频风格化以及视频任意倍率超分。
全真将至,5G先发
全真互联的实现,涉及到多层面的因素,云、终端、应用等等,网络是其中重要的一层。那么5G时代的到来,将为全真互联网带来怎样的机遇?腾讯云通信副总经理王军带来了《全真将至,5G先发——从5G看全真互联网时代》主题分享。
腾讯云通信副总经理王军
在演讲伊始,王军首先分享了从5G视角对全真互联网的深刻理解:
1.全真互动。以远程操控为例,全真互动希望达到的目标是操作流畅,从视听和触觉上都能获得如同现场操作般的真实体验。
2.沉浸感知。以VR为代表的沉浸式体验。
3.数字孪生。
要实现全真互联网的极致体验,在网络层面有着两大核心诉求——低时延、高带宽。而5G浪潮的爆发正在为全真互联创造广阔可能。王军指出,到2023年底,国内5G可基本覆盖所有乡镇和重点乡村;今年上半年,国内5G手机出货量超亿部,由此预估2023年在C端,国内5G手机普及量有望达到5-8亿,B端的企业级服务也将不断拓展。
那么,快速发展的5G技术与音视频技术的结合将带来哪些应用机遇?王军提出了以下落地场景:
1.远程实时操控。基于腾讯云音视频多年积累的成熟技术TRTC及远程实时操控产品TRRO,提供5G网络下低时延的远程实时操控能力,可广泛应用于无人矿车、港口集卡、钢铁天车、乘用车无人驾驶等场景。
2.VR云游戏。将计算放到云端,个人边缘云主机,按时计费。
3.全球端到端加速体系。在网络负载重或网络质量差的环境中,腾讯云加速产品可提供低时延与大带宽的保障。
4.规模化、多样化的边缘基础设施。包括面向广域的边缘公有云与面向本地的边缘私有云。
在QA环节,王军和现场的TVP专家还就5G在远程医疗及自动驾驶领域的应用、移动网络与WIFI的稳定性、5G CPE等问题展开了热烈的探讨。
全真互联时代下的多媒体技术
多媒体技术是全真互联网最为大众广泛而深刻感知的技术。腾讯多媒体实验室产品副总监、专家工程师叶聪,以《全真互联时代下的多媒体技术》主题分享,带现场嘉宾深入走进全真互联背后的多媒体技术。
腾讯多媒体实验室产品副总监、专家工程师叶聪
在叶聪看来,全真互联网的实现有两个维度,一是在连接层面变得更全面,二是在呈现与交互层面变得更真实。
1.在连接层面,从消费互联网时代的人与人,人与信息/服务连接,到产业互联网时代的万物互联,再进化为全真互联网时代,虚拟世界出现。人、信息/服务、物在虚拟世界的副本与真实世界可以任意相连。
2.在呈现层面,视觉上发展到与沉浸式相关的体验如AR、VR。听觉上发展到全景音。在交互层面,目前行业努力推进的是语音、肢体动作的识别交互,下一代会往脑机接口探索。
而随着全真互联体验要求的不断提高,其背后的视频编解码、视频处理与沉浸式技术也在快速发展。
编解码技术上,叶聪将编解码技术与标准的进化史娓娓道来,从早年的MPEG-2到如今最新的VVC,演进的过程也是中国企业技术话语权不断增强的过程——目前腾讯有数百项提案得到VVC标准的采纳,位列世界第三。目前腾讯云音视频旗下转码及相关媒体处理应用已支持最新的编解码标准H.266/VVC。
视频处理技术上,展示设备会向着8K高清、10bit色彩、高帧率发展。相应的素材也需要进行去压缩失真、色彩修正、去抖动等优化处理。叶聪以一个效果视频展示了腾讯云多媒体实验室在视频处理上的能力。
沉浸式技术上,目前有两大方向:
1.3DoF,如VR360度视频,难点主要在于高维采集数据的传输,可用切片的方案解决。实验室打造的VR技术,在腾讯云临境沉浸式媒体解决方案上也得到了出色的运用。
2.6DoF,如步入式VR360视频,数字孪生方案等等。
在分享的最后,叶聪介绍了3D点云的概念,其优点在于高度精细化地描述3D对象。腾讯的点云平台结合SFM、深度学习等技术,可将现实场景虚拟化重建,应用于线上看房、文物原貌重现、自动驾驶等领域。
技术论道
在干货满满的技术分享过后,迎来了思想火花迸发的技术论道环节。主持人,腾讯专家研发工程师刘连响提出了三个颇具深度的热点话题,现场嘉宾以小组讨论的形式,对各个话题展开了充分的讨论,在热烈的交流中碰撞出众多精彩的观点。
腾讯专家研发工程师刘连响
开源与商业之间的关系?
开源与商业间的关系,是现场讨论最为激烈的话题。专家们结合自身经历,从多个角度探讨了开源的驱动力、价值、与商业间的平衡点等等,带来了充满启发性的多元观点。
热烈的小组讨论
1.从系统层次看开源:峰畅科技联合创始人及CTO、腾讯云TVP段先德认为,在不同层次的系统中,开源与商业的关系有所不同。在基础系统层次,如数据库框架、基础应用部件等,主要由开源的技术动机驱动;而在业务场景层次,商业力量则比开源的驱动力更强,业内不乏成功的商业变现案例。
2.从主导动力看开源:福强科技CTO、腾讯云TVP王福强提出了辩证性的新视角——当前,开源也成为了技术营销的一种手段。腾讯云多媒体平台公共技术负责人赵军则进一步对这一观点展开了探讨,即可以根据主导动力,将开源划分为社区/个人主导的开源,与商业公司主导的开源。对于商业公司主导的开源,赵军认为,把握好开源初心与商业诉求之间的平衡点非常关键。
3.从动机与价值看开源:FFmpeg官方源代码维护者、腾讯云TVP刘歧发表了独到的见解,根据动机,他将从事开源的开发者划分为三类:(1)出于爱好从事开源,将开源作为个人发挥社会价值的方式。(2)为了资本追赶开源风口,在投资的风潮过后,开源项目就无法持续。(3)通过开源提升个人影响力,以获得更好的职业发展。其价值可总结为个人在社会的价值、在资本方的价值以及在公司的价值。
4.从商业和公益看开源:盛派网络CEO兼首席架构师、腾讯云TVP苏震巍指出,开源是在商业中成立的向善循环——通过将产品与技术开源,企业可以吸收社会的资源,让其他企业用户帮助发现问题,解决问题,从而推动自身商业模式的不断完善。
全真互联网的第一个落地应用会在哪里?
对于全真互联网的未来落地应用,远程教学是专家们普遍看好的场景,包括医疗领域的手术教学,以及开飞机的驾驶教学。其价值在于能够避免操作失误而造成的灾难性后果,同时又能降低培养人才的成本。
技术的发展将为全真互联网带来哪些机会?
伴随着超高清和XR等技术的发展,以及5G大带宽、低时延和边缘分流等能力的成熟,B端和C端的全真互联网应用将涌现出哪些机会?专家们认为,无人化是蕴含着商业机遇的方向。低时延将进一步促进远程操控的发展,如汽车、机器、厂房的远程操控。
结语
本次“全真互联网中的声与影”腾讯云TVP技术闭门会在开源与商业的激辩中落下了帷幕,嘉宾们对于技术的探讨却一直延续到晚宴环节也未曾停歇。声音需要碰撞方能激发崭新的思考;视角需要交换才会拓宽认识的边界,这是这场音视频盛宴在前沿技术之外,给予我们的更深刻的启迪。
TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional),是腾讯云授予云计算领域技术专家的一个奖项。TVP计划致力打造与行业技术专家的交流平台,构建云计算技术生态,实现“用科技影响世界”的美好愿景。