摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种思维链与思维模态辅助语音生成方法、装置、设备及介质,包括:接收源文本和用于指定情感表达的文本提示,将文本提示输入语言模型,生成情感控制向量,基于思维链机制处理源文本,生成音素序列,基于思维模态机制处理情感控制向量,生成音频特征序列,对音素序列和音频特征序列进行时间对齐操作,生成时间对齐序列,将时间对齐序列输入语音解码器,生成语音波形。本发明通过结合思维链机制与思维模态机制,打破了传统基于固定情感标签或预设控制参数的限制,实现了以自然语言灵活指定语音情感表达,提升了语音合成的自然性、表达的细腻性以及情感控制的自由度。
技术关键词
音频特征
语音生成方法
序列
语音解码器
生成语音
声学特征
文本
生成程序
波形
机制
接收源
语义特征
生成装置
计算机设备
分析模块
符号
多模态
标记
医疗健康
系统为您推荐了相关专利信息
预处理图像数据
模型分割方法
协同注意力
脑肿瘤分割
多头注意力机制
缺陷检测方法
样本
序列
缺陷检测系统
数据获取模块
手势运动轨迹
动作意图识别
文本生成方法
图像序列数据
运动意图识别