摘要
本发明提供了一种多模态感知与认知数据集的构建方法和装置,获取图像信息,该图像信息包括智能体自身的摄像头实时抓取的画面;根据图像信息构建知识图谱;其中,该知识图谱包括实体信息和实体之间的位置关系;将图像信息切分为不重叠的子区域图像;根据子区域图像和知识图谱进行图像描述,生成描述图像内容的自然语言文本,并根据自然语言文本构建多模态感知与认知数据集,解决了现有技术中多模态数据集标注方法成本高、效率低、准确度低的问题,提升了多模态模型的感知能力以及包含推理、比较、描述的高级认知能力。
技术关键词
自然语言文本
构建知识图谱
图像
多模态
三元组
实体
K均值聚类算法
人工智能模型
卷积架构
数据
微调技术
计算机程序产品
计算机视觉
初始聚类中心
模块
信息处理
样本
系统为您推荐了相关专利信息
信息管理系统
病虫害防治
关键词
大数据
数据采集模块
膜片式夹紧气缸
仿人机器人
髋关节组件
气动人工肌肉
头部组件
管式扩压器
表面缺陷识别方法
像素点
图像识别技术
聚类
多通道特征
历史故障数据
序列
三维模型
监测电力设备