摘要
本发明提供一种视频翻译配音方法、装置、设备及介质,涉及机器翻译技术领域,该方法包括:获取源音频数据及源字幕数据;从源音频数据中截取第i个源字幕对应的源音频;翻译第i个源字幕得到第i个目标字幕;将第i个源音频及第i个目标字幕输入预设人声克隆模型,得到第i个待处理音频及其对应的时间戳;若第i个待处理音频满足预设优化条件,则对其进行预设优化处理,得到第i个目标音频及其对应的时间戳;若不满足,则将其确定为第i个目标音频,第i个目标音频的时间戳与第i个待处理音频的时间戳相同;按时间戳顺序拼接各目标音频得到目标音频数据;根据目标音频数据确定目标视频文件。本申请避免了声纹分镜错误的同时还使得配音更加生动。
技术关键词
字幕
音频
配音方法
数据
视频
自动语音识别技术
光学字符识别技术
人声
机器翻译技术
配音装置
可读存储介质
拼接模块
处理器
存储器
计算机
分离器
电子设备
系统为您推荐了相关专利信息
店铺
训练推荐模型
餐饮
推荐方法
计算机程序产品
退化模型
RUL预测方法
退化特征
待测设备
非线性
射线
深度图数据
图像处理
坐标系
启发式搜索算法