摘要
本发明提供了一种基于多模态大模型的实时视频翻译与音画同步方法及系统,涉及视频翻译技术领域,包括:获取源视频;基于所述多模态大模型对所述源视频进行提取,得到多模态特征;通过跨模态注意力机制对所述多模态特征进行融合,生成上下文语义向量;基于所述上下文语义向量实时翻译为目标语言文本,并基于所述多模态特征处理所述翻译语言文本,得到翻译语言音源;基于所述翻译语言音源对所述源视频进行口型调整,并将所述翻译语言音源和口型动画视频进行合并,得到音画同步的实时翻译视频。本发明,突破传统单一模态翻译的局限,通过多模态特征,结合跨模态注意力机制动态对齐上下文信息,显著提升翻译的语义准确性。
技术关键词
翻译语言
音画同步方法
多模态特征
语义向量
实时视频
跨模态
注意力机制
文本
双线性插值
动画
动态时间规整算法
声纹特征
滑动窗口机制
关键点
语音
关键帧
翻译技术
掩码矩阵
系统为您推荐了相关专利信息
文本段落
命名实体识别方法
特征提取网络
金融
融合特征
智能巡检方法
语义向量
多模态
混合现实设备
智能巡检系统
回环检测方法
序列
多模态特征融合
在线
全局特征融合
多模态数据采集
溺水检测方法
游泳池
红外热成像仪
视觉传感器