摘要
本发明公开了一种多图多模态大语言模型中的语义对齐方法及系统,具体过程为:从现有的单图数据集中搜集组片组,并利用图像分割、图像填充技术和大语言模型来构建多图多模态样本,并将其用于语义对齐增强的多图多模态大模型训练中。其中,模型首先通过视觉编码器对输入图片进行编码,生成视觉编码图,并通过Q‑former模块抽取视觉标记。在此基础上,通过自适应权重调整模块生成上下文语义特征,并将其与当前感知图片的语义引导特征结合,最终生成具有增强语义对齐的视觉标记。本发明显著提升了多图任务中的语义对齐能力,特别是在处理图片差异较大的场景下,达到了较高的性能提升;同时也能确保在图片高度相似的情况下保留一定的语义对齐能力。
技术关键词
大语言模型
图片
对齐方法
语义特征
标记
文本
图像填充技术
计算机电子设备
线性
样本
答案
视觉
对齐系统
编码
存储计算机程序
数据获取模块
计算机程序产品
处理器
系统为您推荐了相关专利信息
身份验证信息
大语言模型
自然语言
模版
生成方法系统
空间拓扑关系
物流仓储监控系统
图像特征集
动态更新
人体关键点