摘要
本发明公开一种基于大模型的精细情感控制TTS方法、装置、设备及介质,涉及人工智能技术领域,能够在银行、金融客服、保险咨询、医疗导诊等高敏感情感交互领域,生成情感表现细腻的语音服务,提高用户使用体验,包括:获取输入文本,基于预设的大语言模型采集输入文本的情感特征向量;对情感特征向量进行编码,得到语音编码向量;基于预训练的神经网络模型确定输入文本的情感曲线向量;基于语音编码向量以及情感曲线向量生成输入文本对应的目标语音。本发明通过大语言模型提取情感特征向量,结合神经网络生成动态情感曲线,协同驱动语音合成,显著提升情感细腻度与连续性,解决了传统TTS情感表达粗糙化、片段化难题。
技术关键词
TTS方法
语音编码
文本
神经网络模型
情感类别
大语言模型
曲线
分层编码器
情感分析模型
计算机设备
焦点
人工智能技术
视觉
图像
注意力机制
处理器
强度
可读存储介质
系统为您推荐了相关专利信息
图像分类模型
文本特征向量
图像特征向量
图像编码
图像分类装置
多智能体协作
融合多模态特征
综合性
前馈神经网络
文本
视频图像增强方法
照度
亮度
直方图均衡化
肘部法则