基于多模态大模型的实时视频翻译与音画同步方法及系统

正文

推荐专利

申请号：CN202510380695

申请日期：2025-03-28

公开号：CN120218091A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提供了一种基于多模态大模型的实时视频翻译与音画同步方法及系统，涉及视频翻译技术领域，包括：获取源视频；基于所述多模态大模型对所述源视频进行提取，得到多模态特征；通过跨模态注意力机制对所述多模态特征进行融合，生成上下文语义向量；基于所述上下文语义向量实时翻译为目标语言文本，并基于所述多模态特征处理所述翻译语言文本，得到翻译语言音源；基于所述翻译语言音源对所述源视频进行口型调整，并将所述翻译语言音源和口型动画视频进行合并，得到音画同步的实时翻译视频。本发明，突破传统单一模态翻译的局限，通过多模态特征，结合跨模态注意力机制动态对齐上下文信息，显著提升翻译的语义准确性。

技术关键词

翻译语言音画同步方法多模态特征语义向量实时视频跨模态注意力机制文本双线性插值动画动态时间规整算法声纹特征滑动窗口机制关键点语音关键帧翻译技术掩码矩阵

系统为您推荐了相关专利信息

基于多模态融合和深度学习的命名实体识别系统及方法

文本段落命名实体识别方法特征提取网络金融融合特征

一种基于多模态融合的混合现实智能巡检方法及系统

智能巡检方法语义向量多模态混合现实设备智能巡检系统

一种序列回环检测方法、设备、介质及产品

回环检测方法序列多模态特征融合在线全局特征融合

基于改进YOLOv5的多模态融合游泳池溺水检测系统及方法

多模态数据采集溺水检测方法游泳池红外热成像仪视觉传感器

一种基于特征劫持的统一视觉语言模型后门攻击方法

后门样本对齐模块文本图像

基于多模态大模型的实时视频翻译与音画同步方法及系统

站点导航

APP 下载