一种基于多模态下的视觉交互系统

正文

推荐专利

一种基于多模态下的视觉交互系统

申请号：CN202411011287

申请日期：2024-07-26

公开号：CN118535023B

公开日期：2024-10-01

类型：发明专利

摘要

本发明属于视觉交互技术领域，本发明公开了一种基于多模态下的视觉交互系统；包括：采集用户的视觉模态数据和用户语音指令数据；将视觉模态数据进行预处理，得到视觉特征，将用户语音指令数据进行语音识别，获得语音指令文本特征；将视觉特征和语音指令文本特征进行融合，构建得到多模态融合特征向量；基于多模态融合特征向量，利用构建完成的意图分类模型，获得用户的N种交互意图类别；将多模态融合特征向量进行权重调整，得到调整后的多模态融合特征向量；将调整后的多模态融合特征向量输入构建完成的交互策略生成模型中，得到交互策略，将交互策略发送至人机交互终端；确保长期使用过程中保持高水准的交互体验。

技术关键词

视觉交互系统意图类别意图分类模型多模态面部关键点门控循环单元网络视觉特征序列策略节点特征深度图像数据人机交互终端网格文本热力图

系统为您推荐了相关专利信息

一种基于多模态融合的鸟类识别系统

模态特征视频信号处理模块音频信号处理模块识别系统多模态

用于体内磁控靶向富集的基于多模态影像处理方法及系统

多模态富集磁场调控病灶微环境靶向配体

基于动态温控与多模态检测的自适应光学抛光系统及方法

抛光系统光学抛光方法温控激光干涉仪多通道微流控

视频编码方法、装置、电子设备及存储介质

运动补偿时域滤波空间拓扑关系面部运动向量码率

基于云计算的纺织后处理性能预测方法及系统

性能预测方法局部纹理特征融合特征纺织品灰度共生矩阵

一种基于多模态下的视觉交互系统

站点导航

APP 下载