思维链与思维模态辅助语音生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202511492013

申请日期：2025-10-20

公开号：CN120977289B

公开日期：2025-12-26

类型：发明专利

摘要

本发明涉及语音处理技术领域，可应用于金融科技及医疗健康等业务场景中，公开了一种思维链与思维模态辅助语音生成方法、装置、设备及介质，包括：接收源文本和用于指定情感表达的文本提示，将文本提示输入语言模型，生成情感控制向量，基于思维链机制处理源文本，生成音素序列，基于思维模态机制处理情感控制向量，生成音频特征序列，对音素序列和音频特征序列进行时间对齐操作，生成时间对齐序列，将时间对齐序列输入语音解码器，生成语音波形。本发明通过结合思维链机制与思维模态机制，打破了传统基于固定情感标签或预设控制参数的限制，实现了以自然语言灵活指定语音情感表达，提升了语音合成的自然性、表达的细腻性以及情感控制的自由度。

技术关键词

音频特征语音生成方法序列语音解码器生成语音声学特征文本生成程序波形机制接收源语义特征生成装置计算机设备分析模块符号多模态标记医疗健康

思维链与思维模态辅助语音生成方法、装置、设备及介质

站点导航

APP 下载