基于多模态大模型的语音交互优化方法及系统

AITNT
正文
推荐专利
基于多模态大模型的语音交互优化方法及系统
申请号:CN202510986390
申请日期:2025-07-17
公开号:CN120496511B
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开了基于多模态大模型的语音交互优化方法及系统,涉及人工智能与语音交互技术领域,包括:响应于用户实时语音进行语音识别,获取语音文本信息;根据语音文本信息结合用户实时语音的语音波形作为多模态识别模型的输入,以判断语音对话是否被打断并识别打断意图,获取语音打断结果;根据语音打断结果获取用户新意图,动态调整系统响应策略以实现交互优化;通过多模态融合提升打断检测的精确性和全面性,从而精准识别打断意图以实时响应用户意图,显著提高了系统对话交互效率和可靠性,克服现有的语音打断检测存在检测准确性不高,以及无法实现用户打断行为的动态响应,导致语音对话系统的交互效率低、可靠性差的问题。
技术关键词
交互优化方法 多模态 文本 实时语音 意图 声学特征 频域特征 融合特征 动态变化特征 时间序列特征 波形 音频 动态切换系统 键值对数据库 语音对话系统 多任务 语音交互技术 混合损失函数
系统为您推荐了相关专利信息
1
信息处理装置、信息处理方法、以及程序产品
人工智能服务器 信息处理装置 文本 图像 信息处理方法
2
一种用于招投标评审的招投标数据处理方法及系统
图表 招投标数据处理方法 文本 融合特征 信息熵
3
一种手术智能化信息管理系统
智能化信息管理系统 手术场景 时间序列预测模型 手术器械 高精度三维重建
4
基于多数据源的法律问答信息整合方法、装置及相关设备
信息整合方法 意图 标签 生成技术 语义向量
5
基于多关系深度检索文本匹配的人名消歧方法
语义向量 地理信息数据 企业 文本 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号