一种基于语音声学特征调控的多模态语音交互大模型训练方法、系统、终端设备及介质

正文

推荐专利

申请号：CN202511461447

申请日期：2025-10-14

公开号：CN120954388A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于语音声学特征调控的多模态语音交互大模型训练方法、系统、终端设备及介质，涉及多模态语音交互技术领域，所述方法包括：获取文本训练样本的文本token并构造对应的语音token，得到用于将文本token转化为语音token的预训练数据；结合多模态输入样本与预训练数据，构造用于语音理解与对话生成的微调训练数据；使用预训练数据构造并预训练基础模型；基于预训练基础模型构建多模态语音交互大模型，用微调数据训练，使其能基于多模态输入调控语音声学特征并输出语音。本发明通过文本token和语音token的对齐与分阶段训练，实现语音声学特征精细化调控，提升长语音连贯性与交互自然性，高效赋予模型可控音色、情感的语音交互能力。

技术关键词

语音声学特征多模态语音文本模型训练方法数据多轮对话语音语义理解语义特征生成语音样本基础单人终端设备注意力语音交互能力多层感知机人声模型训练系统