一种面向大语言模型快速实现图像接地能力的系统和方法

正文

推荐专利

申请号：CN202411871500

申请日期：2024-12-18

公开号：CN119762938A

公开日期：2025-04-04

类型：发明专利

摘要

本发明公开了一种面向大语言模型快速实现图像接地能力的系统和方法，涉及图像数据处理领域，所述系统包括该系统包含视觉编码层、文本编码层，第一投影层，transformers decoder模块、瓶颈隐藏层、第二投影层、文本输出头和接地输出头模块八个部分组成；其中第二投影层模块由自注意力网络、文本交叉注意力网络和图像交叉注意力网络和全连接网络四个子模块构成，其中第一投影层和接地输出头的引入，以及其训练方法的定义，实现跨模态大模型的多头输出，帮助跨模态的大语言模型在保证原有文本理解、推理的能力上，紧需要少量数据的训练，就可以实现yolo等目标检测模型同样的精度和稳定性的目标位置预测能力。

技术关键词

大语言模型注意力编码图像数据处理瓶颈子模块跨模态文本理解标识符图片网络模块输出特征矩阵阶段坐标

一种面向大语言模型快速实现图像接地能力的系统和方法

站点导航

APP 下载