摘要
本发明提出了一种基于微调大语言模型的场景图生成增强方法,针对现有的场景图生成算法对不常见目标效果较差的问题,基于数据集标注生成训练数据,对大模型进行指令引导的参数微调,以获得关系预测三元组。该三元组将与传统视觉模型输出的关系三元组集合进行交叉注意力交互,并进行图卷积全局融合得到最终结果。结果表明本发明充分发挥了大语言模型在先验知识和推理能力方面的优势,并与传统视觉模型互补,从而实现更优的表现。
技术关键词
大语言模型
三元组
联合损失函数
场景
视觉关系检测模型
自然语言问答
引入注意力机制
节点特征
多头注意力机制
生成训练数据
空间位置关系
矩阵
编码器
指令
格式化
系统为您推荐了相关专利信息
隧道变形监测方法
深度学习语义分割
激光
中心线
像素
协同分析方法
分析事件
因子
数据库分析技术
状态更新