基于多模态融合的语音生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510275169

申请日期：2025-03-10

公开号：CN120048243A

公开日期：2025-05-27

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于医疗健康、金融科技及文化传播等业务场景，公开了一种基于多模态融合的语音生成方法，包括：采集音频数据提取音色特征，训练领域特征音色生成模型；解析文本语义识别情感信息，调整语音合成参数，结合个性化信息构建参数映射表，融合生成合成控制参数序列，与文字标注、视觉元素及背景音乐数据对齐，驱动领域特征音色生成模型，生成同步语音、文本、视觉及音乐的合成数据。本发明通过音色特征训练生成领域音色，结合语义解析和情感识别优化语音表达，基于个性化信息匹配用户需求，融合文本、视觉和音乐数据进行时间对齐，使合成语音具备领域特征、情感适配性及个性化，提升了语音的沉浸感和信息传达能力。

技术关键词

语音生成方法特征音色多模态音色特征参数文本语义知识库生成程序序列音频视觉分层数据结构声学特征语音指令识别情感分类模型隐马尔可夫模型预训练语言模型

基于多模态融合的语音生成方法、装置、设备及介质

站点导航

APP 下载