摘要
本发明公开了一种基于人工智能的机器人多模态交互方法和系统,其属于人工智能技术领域,包括采集并预处理初始多模态数据,得到多模态数据,将多模态数据输入卷积神经网络,并对多模态数据进行处理和解析,得到图像特征向量、手势特征向量、第一概率分布、语音特征向量、第二概率分布、文本特征向量和第三概率分布,提取语义信息,得到综合语义信息;对图像数据和手势数据进行手势识别,得到识别结果,将上述数据进行融合,得到综合语义表达;根据综合语义表达匹配预设的交互策略,得到交互信息。本发明能充分融合RGB图像和深度图像,使图像具有清晰完整的形状和轮廓,同时通过融合图像数据、语音数据和文字数据,提升交互信息的准确性。
技术关键词
多模态交互方法
综合语义
文本特征向量
图像特征向量
双流卷积神经网络
语音
手势特征
多级特征融合
机器人
图像增强
手势传感器
多模态交互系统
触摸传感器
融合图像数据
系统为您推荐了相关专利信息
视频检索方法
视频特征向量
图像特征向量
查询标签
视频关键帧提取
语义主题
视频帧
融合特征
视频摘要生成方法
语义特征提取