摘要
本申请涉及语音识别技术领域,特别是涉及到一种命令词确认方法、装置、设备及存储介质,其中方法包括:在通用语料上训练识别模型,然后基于命令词语料优化识别模型,并固定模型权值,得到固定识别模型;基于固定识别模型提取输入音频的音频嵌入,将音频嵌入与输入文本对应的文本嵌入映射入同一维度空间,并进行对齐;通过自注意力机制对对齐后音频嵌入进行处理,捕捉音频中的上下文信息,优化音频嵌入与文本嵌入之间的匹配效果;将音频嵌入与自定义词汇的输入文本的文本嵌入进行相似度比较,若相似度超过第一预设阈值,则将命令词识别为对应的自定义词汇。本申请显著提升了对自定义词汇的识别能力,大幅提高了个性化指令的识别准确率。
技术关键词
音频
文本
训练识别模型
注意力机制
命令
词语
维特比算法
语音识别技术
列表
处理器
计算机设备
可读存储介质
模块
存储器
序列
指令
参数
系统为您推荐了相关专利信息
模态分析
视频剪辑方法
多模态
视频剪辑装置
逻辑
图像编码器
图像处理方法
模型训练方法
网络
语义特征
查询模型
智能问答方法
实体关系抽取
大语言模型
异构
作业现场
作业风险
安全帽佩戴识别
监控录像视频
生成答案