摘要
本发明公开了一种基于语音声学特征调控的多模态语音交互大模型训练方法、系统、终端设备及介质,涉及多模态语音交互技术领域,所述方法包括:获取文本训练样本的文本token并构造对应的语音token,得到用于将文本token转化为语音token的预训练数据;结合多模态输入样本与预训练数据,构造用于语音理解与对话生成的微调训练数据;使用预训练数据构造并预训练基础模型;基于预训练基础模型构建多模态语音交互大模型,用微调数据训练,使其能基于多模态输入调控语音声学特征并输出语音。本发明通过文本token和语音token的对齐与分阶段训练,实现语音声学特征精细化调控,提升长语音连贯性与交互自然性,高效赋予模型可控音色、情感的语音交互能力。
技术关键词
语音声学特征
多模态语音
文本
模型训练方法
数据
多轮对话
语音语义理解
语义特征
生成语音
样本
基础
单人
终端设备
注意力
语音交互能力
多层感知机
人声
模型训练系统