摘要
本发明涉及人工智能技术领域,提供一种基于细粒度关系的开放词汇场景图生成方法,包括对待处理图像进行图像标注和视觉特征提取,分别得到场景图标注信息和视觉特征;对提示文本进行拆解,得到子词单元;进行视觉特征映射得到映射特征,将映射特征和子词单元输入到大语言模型中得到结构化序列,并根据隐藏层位置状态得到归一化边界框坐标;获取隐藏层状态,确定目标类别并根据隐藏层状态和目标类别得到词汇类别得分,并通过词汇类别得分得到子词类别得分,对结构化序列进行词汇替换,得到目标结构化序列;进行特殊词汇分割和词汇提取,得到三元关系组,从而得到目标场景图。本发明可以对待处理图像进行高效标注。
技术关键词
生成方法
场景
视觉特征提取
序列
关系
多层感知机
图像
解码器
坐标
实体
文本
人工智能技术
分块
标记
标签
算法
系统为您推荐了相关专利信息
剩余寿命预测方法
振动噪声
概率密度函数
风力发电机
剩余寿命预测模型
年龄预测方法
微滴式数字
引物探针组合物
多元线性回归模型
生物标志物
线索
视觉
多层感知器
Sigmoid函数
模拟人类大脑
价格评估方法
业务系统
时间序列预测模型
收益预测方法
单周期