摘要
本申请涉及到语音识别技术领域,公开了一种多意图处理方法、装置、设备及介质,其中方法包括:首先基于预设命令词生成含同义表述的文本语料,经语音合成转换为音频语料,构建“文本‑音频”配对的泛化数据集;接着以该泛化数据集为训练数据,联合训练共用特征提取网络的语音识别模型与自然语言理解模型,输出语音意图和文本意图;再设置三类队列,存储并同步语音意图至结果队列,验证后存储文本意图,基于时间戳与意图来源对结果队列进行冲突检测处理;最后通过语音活动检测判断输入终止,输出结果队列全部意图并清空队列。该方法支持用户自由表述命令,可连续处理多意图,简化交互流程,提升交互灵活性与便捷性,改善用户体验。
技术关键词
意图
队列
文本
自然语言理解模型
语音活动检测
特征提取网络
语音识别模型
音频
分支
语音识别技术
数据
命令
模型训练模块
可读存储介质
存储计算机程序
处理器
系统为您推荐了相关专利信息
网络连接管理方法
物联网设备
网络连接管理系统
云端管理平台
文本
结构化数据处理方法
语义特征
图像文本信息
图像语义识别
超分辨率技术
大语言模型
故障诊断方法
优化器
词典
知识图谱构建