基于多模态大模型的语音交互优化方法及系统

正文

推荐专利

申请号：CN202510986390

申请日期：2025-07-17

公开号：CN120496511B

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开了基于多模态大模型的语音交互优化方法及系统，涉及人工智能与语音交互技术领域，包括：响应于用户实时语音进行语音识别，获取语音文本信息；根据语音文本信息结合用户实时语音的语音波形作为多模态识别模型的输入，以判断语音对话是否被打断并识别打断意图，获取语音打断结果；根据语音打断结果获取用户新意图，动态调整系统响应策略以实现交互优化；通过多模态融合提升打断检测的精确性和全面性，从而精准识别打断意图以实时响应用户意图，显著提高了系统对话交互效率和可靠性，克服现有的语音打断检测存在检测准确性不高，以及无法实现用户打断行为的动态响应，导致语音对话系统的交互效率低、可靠性差的问题。

技术关键词

交互优化方法多模态文本实时语音意图声学特征频域特征融合特征动态变化特征时间序列特征波形音频动态切换系统键值对数据库语音对话系统多任务语音交互技术混合损失函数

系统为您推荐了相关专利信息

信息处理装置、信息处理方法、以及程序产品

人工智能服务器信息处理装置文本图像信息处理方法

一种用于招投标评审的招投标数据处理方法及系统

图表招投标数据处理方法文本融合特征信息熵

一种手术智能化信息管理系统

智能化信息管理系统手术场景时间序列预测模型手术器械高精度三维重建

基于多数据源的法律问答信息整合方法、装置及相关设备

信息整合方法意图标签生成技术语义向量

基于多关系深度检索文本匹配的人名消歧方法

语义向量地理信息数据企业文本注意力

基于多模态大模型的语音交互优化方法及系统

站点导航

APP 下载