一种基于掩码预测的视频转换方法及系统

正文

推荐专利

一种基于掩码预测的视频转换方法及系统

申请号：CN202411582247

申请日期：2024-11-07

公开号：CN119964553A

公开日期：2025-05-09

类型：发明专利

摘要

本申请提供一种基于掩码预测的视频转换方法及系统，通过提取待转换视频的待转换音频，根据待转换音频，得到第一语种的音频文本与说话人音频对应的说话人信息，并根据不同于第一语种的第二语种对音频文本执行语种转换，得到待转换文本；根据待转换文本生成第一音频，根据说话人信息检索第二音频，将第一音频和第二音频输入声学模型，以通过通过掩码预测的训练方式得到的声学模型根据第一音频特征和第二音频特征执行语音特征替换，输出目标音频，将目标音频替换待转换音频，得到目标视频。本申请通过掩码预测的方式，提高声学模型提取语音特征的精度，从而提高对第一音频和第二音频提取语音特征的精度，提升语音翻译后的音频的合成效果。

技术关键词

音频特征视频转换方法训练特征转换文本音频编码语音特征音频解码模块信息检索数据特征提取器视频转换系统替换算法邻近算法索引

一种基于掩码预测的视频转换方法及系统

站点导航

APP 下载