摘要
本申请涉及字幕翻译技术领域,尤其是涉及一种多模态时序对齐AI视频翻译方法、系统,其包括:步骤1:对待翻译视频进行多模态解析,得到音频分离数据、声纹特征数据和视觉时序数据;步骤2,基于音频分离数据的人声进行跨语言翻译和语境优化生成目标语言文本,结合声纹特征数据和目标语言文本合成保留原人声音色的目标语言语音;基于唇部关键点数据和肢体动作时序数据生成与目标语言语音匹配的口型动画;步骤3,通过跨模态时序编码器将目标语言语音、翻译文本、口型动画及肢体动作序列进行四维对齐,并动态调整双语字幕的布局适配视频画面。本申请具有使得视频进行翻译时能够兼顾多模态同步,使得语音、字幕和口型等肢体动作之间保持对齐的效果。
技术关键词
视频翻译方法
多模态
时序
双语字幕
声纹特征
语音
画面
数据
切片
音频
场景
关键点
字幕翻译技术
文本
人声
动画
屏幕
跨模态
系统为您推荐了相关专利信息
定位设备
多模态
工业相机镜头
光学雷达
机载设备
发电量预测方法
注意力机制
风能
频域特征
时域特征
感知特征
时间同步
动态运动数据
卡尔曼滤波技术
头部姿态信息