摘要
本发明属于视觉交互技术领域,本发明公开了一种基于多模态下的视觉交互系统;包括:采集用户的视觉模态数据和用户语音指令数据;将视觉模态数据进行预处理,得到视觉特征,将用户语音指令数据进行语音识别,获得语音指令文本特征;将视觉特征和语音指令文本特征进行融合,构建得到多模态融合特征向量;基于多模态融合特征向量,利用构建完成的意图分类模型,获得用户的N种交互意图类别;将多模态融合特征向量进行权重调整,得到调整后的多模态融合特征向量;将调整后的多模态融合特征向量输入构建完成的交互策略生成模型中,得到交互策略,将交互策略发送至人机交互终端;确保长期使用过程中保持高水准的交互体验。
技术关键词
视觉交互系统
意图类别
意图分类模型
多模态
面部
关键点
门控循环单元
网络
视觉特征
序列
策略
节点特征
深度图像数据
人机交互终端
网格
文本
热力图
系统为您推荐了相关专利信息
模态特征
视频信号处理模块
音频信号处理模块
识别系统
多模态
抛光系统
光学抛光方法
温控
激光干涉仪
多通道微流控
运动补偿时域滤波
空间拓扑关系
面部
运动向量
码率
性能预测方法
局部纹理特征
融合特征
纺织品
灰度共生矩阵