摘要
本发明公开了基于多模态大模型的语音交互优化方法及系统,涉及人工智能与语音交互技术领域,包括:响应于用户实时语音进行语音识别,获取语音文本信息;根据语音文本信息结合用户实时语音的语音波形作为多模态识别模型的输入,以判断语音对话是否被打断并识别打断意图,获取语音打断结果;根据语音打断结果获取用户新意图,动态调整系统响应策略以实现交互优化;通过多模态融合提升打断检测的精确性和全面性,从而精准识别打断意图以实时响应用户意图,显著提高了系统对话交互效率和可靠性,克服现有的语音打断检测存在检测准确性不高,以及无法实现用户打断行为的动态响应,导致语音对话系统的交互效率低、可靠性差的问题。
技术关键词
交互优化方法
多模态
文本
实时语音
意图
声学特征
频域特征
融合特征
动态变化特征
时间序列特征
波形
音频
动态切换系统
键值对数据库
语音对话系统
多任务
语音交互技术
混合损失函数
系统为您推荐了相关专利信息
人工智能服务器
信息处理装置
文本
图像
信息处理方法
智能化信息管理系统
手术场景
时间序列预测模型
手术器械
高精度三维重建