摘要
本申请公开了一种场景理解信息生成方法、装置、设备及介质,包括:将图像输入场景分类模型,得到场景分类模型输出的图像对应的场景类型;利用目标检测模型识别图像中的目标对象,得到目标对象信息,其中,目标对象信息包括目标类型以及位置信息,目标类型包括物体和人员;基于人员属性识别模型识别图像中人员的目标属性信息;将场景类型、目标对象信息、目标属性信息作为上下文信息,并基于上下文信息与用户输入文本确定模型输入信息;将模型输入信息输入自然语言处理模型,以使自然语言处理模型基于上下文信息的提示生成图像对应的场景理解信息。这样,提升了对场景的感知能力,生成更为准确的场景理解信息,从而提升用户体验。
技术关键词
属性识别模型
信息生成方法
场景分类
对象
自然语言
图像训练样本
关键点特征
信息生成装置
卷积模块
文本
处理器
物体
识别模块
可读存储介质
存储器
电子设备
系统为您推荐了相关专利信息
自动化生成方法
围手术期患者
门控循环单元
风险
神经网络深度学习
虚拟私有云
访问控制策略
分布式计算框架
数据一致性校验
扩展算法