摘要
本发明涉及数据处理技术领域,具体提供一种基于多模态融合的操作意图识别方法、系统、设备及介质,包括:同步采集用户的至少两种模态的交互数据,所述模态包括手势、语音和眼神注视中的至少两种;对所述交互数据进行对齐处理,包括时间同步和空间映射至统一坐标系;分别从对齐后的各模态数据中识别出结构化语义信息,包括手势类型、语音文本和注视点坐标;基于预设的语义规则和上下文记忆,对所述结构化语义信息进行语义关联与指代消解,得到操作意图。本发明有效克服了单模态交互不自然、易歧义及容错性差的固有缺陷。
技术关键词
意图识别方法
手势
多模态
语音识别模型
注视点
语义规则
记忆
坐标系
时空图卷积神经网络
物体
自然语言理解模型
降级策略
时间同步
深度神经网络
三维卷积神经网络
数据
意图识别系统
系统为您推荐了相关专利信息
分类预测系统
R波检测算法
时序特征
多级滤波器
射血分数保留
多模态大数据
医学图像处理
分类系统
图像处理模块
图像采集模块
驾驶员疲劳监测方法
注视点
眼动追踪技术
坐标系
BP神经网络