多图多模态大语言模型中的语义对齐方法及系统

正文

推荐专利

申请号：CN202410956798

申请日期：2024-07-17

公开号：CN119027945B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种多图多模态大语言模型中的语义对齐方法及系统，具体过程为：从现有的单图数据集中搜集组片组，并利用图像分割、图像填充技术和大语言模型来构建多图多模态样本，并将其用于语义对齐增强的多图多模态大模型训练中。其中，模型首先通过视觉编码器对输入图片进行编码，生成视觉编码图，并通过Q‑former模块抽取视觉标记。在此基础上，通过自适应权重调整模块生成上下文语义特征，并将其与当前感知图片的语义引导特征结合，最终生成具有增强语义对齐的视觉标记。本发明显著提升了多图任务中的语义对齐能力，特别是在处理图片差异较大的场景下，达到了较高的性能提升；同时也能确保在图片高度相似的情况下保留一定的语义对齐能力。

技术关键词

大语言模型图片对齐方法语义特征标记文本图像填充技术计算机电子设备线性样本答案视觉对齐系统编码存储计算机程序数据获取模块计算机程序产品处理器

系统为您推荐了相关专利信息

一种双语词汇数据知识图谱的构建方法

词汇数据库图谱拓扑结构节点三元组关系

图像质量评价模型训练和评价方法、系统、设备及介质

视觉特征编码模型训练方法样本评价方法模版

一种API测试用例的生成方法和生成系统

身份验证信息大语言模型自然语言模版生成方法系统

一种校园安全管理方法及系统

管理方法校园图像面部特征信息对象

一种基于人工智能的物流仓储监控系统

空间拓扑关系物流仓储监控系统图像特征集动态更新人体关键点

多图多模态大语言模型中的语义对齐方法及系统

站点导航

APP 下载