多图多模态大语言模型中的语义对齐方法及系统

AITNT
正文
推荐专利
多图多模态大语言模型中的语义对齐方法及系统
申请号:CN202410956798
申请日期:2024-07-17
公开号:CN119027945B
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种多图多模态大语言模型中的语义对齐方法及系统,具体过程为:从现有的单图数据集中搜集组片组,并利用图像分割、图像填充技术和大语言模型来构建多图多模态样本,并将其用于语义对齐增强的多图多模态大模型训练中。其中,模型首先通过视觉编码器对输入图片进行编码,生成视觉编码图,并通过Q‑former模块抽取视觉标记。在此基础上,通过自适应权重调整模块生成上下文语义特征,并将其与当前感知图片的语义引导特征结合,最终生成具有增强语义对齐的视觉标记。本发明显著提升了多图任务中的语义对齐能力,特别是在处理图片差异较大的场景下,达到了较高的性能提升;同时也能确保在图片高度相似的情况下保留一定的语义对齐能力。
技术关键词
大语言模型 图片 对齐方法 语义特征 标记 文本 图像填充技术 计算机电子设备 线性 样本 答案 视觉 对齐系统 编码 存储计算机程序 数据获取模块 计算机程序产品 处理器
系统为您推荐了相关专利信息
1
一种双语词汇数据知识图谱的构建方法
词汇数据库 图谱拓扑结构 节点 三元组 关系
2
图像质量评价模型训练和评价方法、系统、设备及介质
视觉特征编码 模型训练方法 样本 评价方法 模版
3
一种API测试用例的生成方法和生成系统
身份验证信息 大语言模型 自然语言 模版 生成方法系统
4
一种校园安全管理方法及系统
管理方法 校园 图像 面部特征信息 对象
5
一种基于人工智能的物流仓储监控系统
空间拓扑关系 物流仓储监控系统 图像特征集 动态更新 人体关键点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号