基于多模态大模型的实时视频翻译与音画同步方法及系统

AITNT
正文
推荐专利
基于多模态大模型的实时视频翻译与音画同步方法及系统
申请号:CN202510380695
申请日期:2025-03-28
公开号:CN120218091A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提供了一种基于多模态大模型的实时视频翻译与音画同步方法及系统,涉及视频翻译技术领域,包括:获取源视频;基于所述多模态大模型对所述源视频进行提取,得到多模态特征;通过跨模态注意力机制对所述多模态特征进行融合,生成上下文语义向量;基于所述上下文语义向量实时翻译为目标语言文本,并基于所述多模态特征处理所述翻译语言文本,得到翻译语言音源;基于所述翻译语言音源对所述源视频进行口型调整,并将所述翻译语言音源和口型动画视频进行合并,得到音画同步的实时翻译视频。本发明,突破传统单一模态翻译的局限,通过多模态特征,结合跨模态注意力机制动态对齐上下文信息,显著提升翻译的语义准确性。
技术关键词
翻译语言 音画同步方法 多模态特征 语义向量 实时视频 跨模态 注意力机制 文本 双线性插值 动画 动态时间规整算法 声纹特征 滑动窗口机制 关键点 语音 关键帧 翻译技术 掩码矩阵
系统为您推荐了相关专利信息
1
基于多模态融合和深度学习的命名实体识别系统及方法
文本段落 命名实体识别方法 特征提取网络 金融 融合特征
2
一种基于多模态融合的混合现实智能巡检方法及系统
智能巡检方法 语义向量 多模态 混合现实设备 智能巡检系统
3
一种序列回环检测方法、设备、介质及产品
回环检测方法 序列 多模态特征融合 在线 全局特征融合
4
基于改进YOLOv5的多模态融合游泳池溺水检测系统及方法
多模态数据采集 溺水检测方法 游泳池 红外热成像仪 视觉传感器
5
一种基于特征劫持的统一视觉语言模型后门攻击方法
后门 样本 对齐模块 文本 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号