摘要
本发明提供了一种AI耳机的多模态语音交互方法、电子设备和存储介质,包括:采集用户的语音信号,基于隐马尔可夫模型,结合语音信号的概率分布特性识别语音信号中的起始与终止点,并截取出可用的语音段;对所述语音段进行语音识别,得到对应的文本信息;基于AI耳机内置的运动传感器,采集用户头部的运动数据;将所述文本信息与所述运动数据输入融合模型,融合得到交互意图特征;对交互意图特征进行解析,得到所述用户的交互意图;基于所述交互意图,驱动AI耳机执行对应的功能。在本发明中,可以精准识别语音信号中的起始与终止点;同时,克服了单模态交互方式无法精准解析用户需求的缺陷。
技术关键词
语音交互方法
隐马尔可夫模型
识别语音信号
关键点
耳机
意图
滤波语音信号
文本
多模态注意力
情境要素
运动传感器
字符
数据
网络连接状态
序列
建立映射关系
多模态交互
系统为您推荐了相关专利信息
车辆悬架控制方法
车辆悬架高度
状态机模型
模式
车辆悬架控制装置
虚拟试衣方法
卷积技术
模特
注意力
特征提取网络
导游器
GPS导航模块
语言模块
语音识别模块
控制模块