一种多模态时序对齐AI视频翻译方法、系统

AITNT
正文
推荐专利
一种多模态时序对齐AI视频翻译方法、系统
申请号:CN202510469278
申请日期:2025-04-15
公开号:CN120416568A
公开日期:2025-08-01
类型:发明专利
摘要
本申请涉及字幕翻译技术领域,尤其是涉及一种多模态时序对齐AI视频翻译方法、系统,其包括:步骤1:对待翻译视频进行多模态解析,得到音频分离数据、声纹特征数据和视觉时序数据;步骤2,基于音频分离数据的人声进行跨语言翻译和语境优化生成目标语言文本,结合声纹特征数据和目标语言文本合成保留原人声音色的目标语言语音;基于唇部关键点数据和肢体动作时序数据生成与目标语言语音匹配的口型动画;步骤3,通过跨模态时序编码器将目标语言语音、翻译文本、口型动画及肢体动作序列进行四维对齐,并动态调整双语字幕的布局适配视频画面。本申请具有使得视频进行翻译时能够兼顾多模态同步,使得语音、字幕和口型等肢体动作之间保持对齐的效果。
技术关键词
视频翻译方法 多模态 时序 双语字幕 声纹特征 语音 画面 数据 切片 音频 场景 关键点 字幕翻译技术 文本 人声 动画 屏幕 跨模态
系统为您推荐了相关专利信息
1
一种整数乘加计算电路的校验电路、方法及芯片
校验电路 数据 参数 校验方法 乘法器
2
基于世界模型的端到端自动驾驶轨迹评估方法及系统
轨迹 实时信息 锚点 多模态传感器 网络
3
一种基于多模态视觉融合的空间扫描、建模、定位设备
定位设备 多模态 工业相机镜头 光学雷达 机载设备
4
结合时频分析与注意力机制的TCN-LSTM风能发电量预测方法
发电量预测方法 注意力机制 风能 频域特征 时域特征
5
一种多模态后视镜自动调节方法及系统
感知特征 时间同步 动态运动数据 卡尔曼滤波技术 头部姿态信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号