摘要
本发明涉及一种双模态语义驱动三维沉浸式远程呈现方法及系统,该方法包括:采集原始视频数据和原始音频数据;对原始音频数据进行人声分离,得到纯净音频语义特征;通过三维头部模型提取原始视频数据的面部特征点并计算头部姿态欧拉角,得到头部姿态语义特征;将纯净音频语义特征和头部姿态语义特征编码并添加时间戳获得字节流,通过网络多路复用将字节流同步至接收端;通过同步的三维头部模型,由接收端根据字节流进行图像重建,并基于在线资源调度算法对生成的图像进行帧插值处理和超分辨率处理,获得三维沉浸式远程呈现视频。本发明能够缩短视频远程呈现延迟,还平衡了设备能力和生成质量,提升了用户体验。
技术关键词
远程呈现方法
三维头部模型
双模态
资源调度算法
字节流
音频
多路复用
人声
接收端
面部特征点
视频
图像重建
数据
语义特征选取
远程呈现系统
超分辨率