摘要
本发明公开了一种场景理解方法、系统及电子设备,涉及人工智能领域,持续获取多维度场景信息,根据预设多模态分析策略对图像信息、语音信息及文本信息进行场景分析以得到多维度场景理解信息,多维度场景理解信息包括表征监测场景内各对象设置情况的属性信息、表征各对象之间关联情况的关系信息、目标监测对象的行为信息以及目标监测对象的情绪信息;基于多维度场景理解信息与用户进行交互。该方案能够持续获取多维度场景信息以便对应确定多维度场景理解信息,且持续获取利于从长时间维度上实现对目标监测对象的监测;分析结果涉及四个维度,使得场景理解信息更加全面,利于后续据此更好地与用户进行交互,利于更好地监测目标监测对象的学习情况。
技术关键词
场景理解方法
文本
语音特征
对象
解码模型
多模态
监测场景
基础
图像分割
对齐模块
习惯
图像编码
全局特征提取
局部特征提取
图像处理算法
理解系统
电子设备