摘要
本发明公开了一种基于多模态的多语言自定义指令识别方法和系统,包括:步骤S1:构建多模态大模型并对该模型进行训练,其中,多模态大模型构建支撑输入处理单元、查询输入处理单元和度量判别器;步骤S2:在步骤S1的基础上,注册用户自定义语音指令;其中,通过步骤S1中训练好的支撑输入处理单元获取并存储用户注册指令的支撑特征向量;步骤S3:获取用户语音并利用步骤S2生成的模型进行推理与指令识别;其中,利用上述训练好的查询输入处理单元对用户语音进行处理输出查询向量,并计算与预先存储的支撑特征向量的匹配度,以此识别用户语音指令。本发明基于多模态融合与度量学习框架,实现高效、可扩展的多语言自定义指令识别。
技术关键词
自定义指令
处理单元
识别方法
自定义语音指令
音频编码器
融合多模态特征
数据
信息查询功能
交叉注意力机制
度度量方法
归一化模块
文本编码器
系统为您推荐了相关专利信息
导线
锚定点
主动冷却系统
控制单元
电源传输单元