摘要
本发明涉及人工智能技术领域,可应用于医疗健康、金融科技及文化传播等业务场景,公开了一种基于多模态融合的语音生成方法,包括:采集音频数据提取音色特征,训练领域特征音色生成模型;解析文本语义识别情感信息,调整语音合成参数,结合个性化信息构建参数映射表,融合生成合成控制参数序列,与文字标注、视觉元素及背景音乐数据对齐,驱动领域特征音色生成模型,生成同步语音、文本、视觉及音乐的合成数据。本发明通过音色特征训练生成领域音色,结合语义解析和情感识别优化语音表达,基于个性化信息匹配用户需求,融合文本、视觉和音乐数据进行时间对齐,使合成语音具备领域特征、情感适配性及个性化,提升了语音的沉浸感和信息传达能力。
技术关键词
语音生成方法
特征音色
多模态
音色特征
参数
文本
语义知识库
生成程序
序列
音频
视觉
分层数据结构
声学特征
语音指令识别
情感分类模型
隐马尔可夫模型
预训练语言模型