摘要
本发明公开了一种基于多阶段大模型的语音交互方法及系统,属于语音识别技术领域。本发明通过意图识别大模型、联网应答大模型和本地指令大模型构建了多阶段大模型框架,通过意图识别大模型识别交互文本的文本类别,再基于文本类别的不同,选择联网应答大模型或本地指令大模型对交互文本进行不同的处理,实现了多阶段大模型的语音交互;以意图识别大模型、联网应答大模型和本地指令大模型,能够避免现有的语音交互过程仅使用单一语言模型导致的语音交互识别不准确;通过直接将实时语音信号转换为交互文本,并直接对交互文本进行处理,避免了因用户的语音信息存在随机性、复杂性和模糊性导致的关键词不准确,从而提高了语音交互的识别准确性。
技术关键词
实时语音
语音交互方法
文本
多阶段
意图识别
语音交互系统
信号采集单元
信号采集模块
指令
大语言模型
音频
矩阵
深度学习模型
生成语音
语音识别技术
信息熵
微调方法
算法
系统为您推荐了相关专利信息
手语识别翻译
大语言模型
问答方法
预训练模型
序列
航空设备
退化预测方法
退化特征
轨迹模型
退化模型
资源控制器
制造执行系统
协同控制方法
排产模型
资源分配
文本
信息生成装置
大语言模型
信息生成方法
可读存储介质
Elman神经网络
防误方法
贝叶斯网络模型
电网调度防误系统
指令