一种基于情感感知适配器与大模型推理的对话语音生成方法及系统

AITNT
正文
推荐专利
一种基于情感感知适配器与大模型推理的对话语音生成方法及系统
申请号:CN202510731766
申请日期:2025-06-03
公开号:CN120260539A
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种基于情感感知适配器与大模型推理的对话语音生成方法及系统。本发明采用的对话语音生成方法,包括:使用语音编码器与时间和层次注意力网络提取原始对话语音数据中的语音情感特征;通过基于查询转换器网络的情感感知编码模块将语音情感特征与大语言模型的文本特征对齐,生成与大语言模型兼容的情感嵌入;使用大语言模型的分词器将输入对话文本的语句生成为文本嵌入;采用基于部分低秩适配网络的情感适配器与文本适配器对情感嵌入与文本嵌入,推理出对话的文本回复与回复情感状态;结合文本回复与回复情感状态,使用语音生成模型生成符合情感语境的目标语音。本发明有效缩小情感与文本之间的差距,生成具有情感一致性的目标语音。
技术关键词
语音生成方法 情感特征 文本 大语言模型 层次注意力 适配器 语音编码器 语音生成模型 网络 生成系统 转换器 特征提取单元 编码模块 适配子 语句 语义 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号