基于多模态融合的语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态融合的语音生成方法、装置、设备及介质
申请号:CN202510275169
申请日期:2025-03-10
公开号:CN120048243A
公开日期:2025-05-27
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于医疗健康、金融科技及文化传播等业务场景,公开了一种基于多模态融合的语音生成方法,包括:采集音频数据提取音色特征,训练领域特征音色生成模型;解析文本语义识别情感信息,调整语音合成参数,结合个性化信息构建参数映射表,融合生成合成控制参数序列,与文字标注、视觉元素及背景音乐数据对齐,驱动领域特征音色生成模型,生成同步语音、文本、视觉及音乐的合成数据。本发明通过音色特征训练生成领域音色,结合语义解析和情感识别优化语音表达,基于个性化信息匹配用户需求,融合文本、视觉和音乐数据进行时间对齐,使合成语音具备领域特征、情感适配性及个性化,提升了语音的沉浸感和信息传达能力。
技术关键词
语音生成方法 特征音色 多模态 音色特征 参数 文本 语义知识库 生成程序 序列 音频 视觉 分层数据结构 声学特征 语音指令识别 情感分类模型 隐马尔可夫模型 预训练语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号