摘要
本发明实施例涉及视频传输技术领域,具体公开了基于语义流的实时高保真视频传输的多模态方法。本发明实施例通过接收多帧视频序列,通过时空压缩器提取空间和时间相关性,输出潜在表示;通过语义翻译器,将潜在表示映射到语义空间,逐步转化视觉特征和文本特征;通过预设的Transformer融合模型,将潜在表示和文本特征进行多模态融合,输出融合表示;通过预设的码本模型,将融合表示量化为量化表示;通过视频控制网,对量化表示和文本特征进行处理,生成重构视频序列。能够显著提高压缩效率,且实现对关键语义信息的优先级传输,从而在带宽受限条件下保持高效压缩和感知相关性,并能够确保视频内容语义一致性和时间连贯性。
技术关键词
高保真视频
重构视频序列
视觉特征
表达式
文本
翻译器
压缩器
参数
视频传输技术
多模态
解码器
代表
语义特征
空间结构
上采样
动态
系统为您推荐了相关专利信息
数据分析方法
时间序列预测模型
模型分析技术
客户服务效率
智能客服系统
检测预警方法
情绪特征
号码
关键词
语音识别技术
飞行器
能力评估方法
在线轨迹规划
能力评估技术
点云模型