一种多模态时序对齐AI视频翻译方法、系统

正文

推荐专利

申请号：CN202510469278

申请日期：2025-04-15

公开号：CN120416568A

公开日期：2025-08-01

类型：发明专利

摘要

本申请涉及字幕翻译技术领域，尤其是涉及一种多模态时序对齐AI视频翻译方法、系统，其包括：步骤1：对待翻译视频进行多模态解析，得到音频分离数据、声纹特征数据和视觉时序数据；步骤2，基于音频分离数据的人声进行跨语言翻译和语境优化生成目标语言文本，结合声纹特征数据和目标语言文本合成保留原人声音色的目标语言语音；基于唇部关键点数据和肢体动作时序数据生成与目标语言语音匹配的口型动画；步骤3，通过跨模态时序编码器将目标语言语音、翻译文本、口型动画及肢体动作序列进行四维对齐，并动态调整双语字幕的布局适配视频画面。本申请具有使得视频进行翻译时能够兼顾多模态同步，使得语音、字幕和口型等肢体动作之间保持对齐的效果。

技术关键词

视频翻译方法多模态时序双语字幕声纹特征语音画面数据切片音频场景关键点字幕翻译技术文本人声动画屏幕跨模态

系统为您推荐了相关专利信息

一种整数乘加计算电路的校验电路、方法及芯片

校验电路数据参数校验方法乘法器

基于世界模型的端到端自动驾驶轨迹评估方法及系统

轨迹实时信息锚点多模态传感器网络

一种基于多模态视觉融合的空间扫描、建模、定位设备

定位设备多模态工业相机镜头光学雷达机载设备

结合时频分析与注意力机制的TCN-LSTM风能发电量预测方法

发电量预测方法注意力机制风能频域特征时域特征

一种多模态后视镜自动调节方法及系统

感知特征时间同步动态运动数据卡尔曼滤波技术头部姿态信息

一种多模态时序对齐AI视频翻译方法、系统

站点导航

APP 下载