一种基于多模态思维链的电影人声配音方法

正文

推荐专利

一种基于多模态思维链的电影人声配音方法

申请号：CN202510475096

申请日期：2025-04-16

公开号：CN120340470A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及一种基于多模态思维链的电影人声配音方法，包括以下步骤：构建带有CoT标注的电影配音数据集；整合多语种语音库、动画数据集和多说话人数据集，训练TTS语音合成模块和V2S视频配音模块；对含有噪声和语义不清楚的数据进行去除；训练多模态视频理解模型与语音生成模型，优化模型参数，提高模型的泛化能力；利用训练好的模型进行配音任务，输出高质量的合成语音。本发明能够实现唇形同步精度提升与情感相似度提升。

技术关键词

配音方法语音生成模型多模态多语种语音人声视频处理器标注规则数据动画模块语义音视频文本噪声高清参数机制动态

系统为您推荐了相关专利信息

一种字幕生成模型设计方法、装置、存储介质和程序产品

模型设计方法语音分段生成字幕人声判别

多模态传感与风振耦合分析的光伏组件隐裂预警系统及方法

光伏组件隐裂风洞模拟装置预警系统振动试验台液压执行器

基于深度学习的视频内容语义理解与文本描述生成方法

视频内容语义理解文本生成方法语义特征视频关键帧提取

一种实时个性化交互系统

个性化交互系统语音识别引擎语言模块网络路径优化图像采集模块

一种基于心脏多模态影像的心肌梗死并发症识别方法

多模态医学图像识别方法多模态特征融合特征提取模块文本编码器

一种基于多模态思维链的电影人声配音方法

站点导航

APP 下载