思维链与思维模态辅助语音生成方法、装置、设备及介质

AITNT
正文
推荐专利
思维链与思维模态辅助语音生成方法、装置、设备及介质
申请号:CN202511492013
申请日期:2025-10-20
公开号:CN120977289B
公开日期:2025-12-26
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种思维链与思维模态辅助语音生成方法、装置、设备及介质,包括:接收源文本和用于指定情感表达的文本提示,将文本提示输入语言模型,生成情感控制向量,基于思维链机制处理源文本,生成音素序列,基于思维模态机制处理情感控制向量,生成音频特征序列,对音素序列和音频特征序列进行时间对齐操作,生成时间对齐序列,将时间对齐序列输入语音解码器,生成语音波形。本发明通过结合思维链机制与思维模态机制,打破了传统基于固定情感标签或预设控制参数的限制,实现了以自然语言灵活指定语音情感表达,提升了语音合成的自然性、表达的细腻性以及情感控制的自由度。
技术关键词
音频特征 语音生成方法 序列 语音解码器 生成语音 声学特征 文本 生成程序 波形 机制 接收源 语义特征 生成装置 计算机设备 分析模块 符号 多模态 标记 医疗健康
系统为您推荐了相关专利信息
1
基于多头上下文协同机制的大模型分割方法和系统
预处理图像数据 模型分割方法 协同注意力 脑肿瘤分割 多头注意力机制
2
缺陷检测模型的训练方法、缺陷检测方法、系统和设备
缺陷检测方法 样本 序列 缺陷检测系统 数据获取模块
3
一种航道区域疏浚施工监管方法及系统
监管方法 映射算法 决策 序列 曲线
4
剩余寿命不确定下的飞机强化学习预测性维修决策方法
强化学习模型 飞机 决策 子模块 序列
5
一种文本生成方法、系统、终端设备及存储介质
手势运动轨迹 动作意图识别 文本生成方法 图像序列数据 运动意图识别
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号