摘要
本发明公开了一种面向大语言模型快速实现图像接地能力的系统和方法,涉及图像数据处理领域,所述系统包括该系统包含视觉编码层、文本编码层,第一投影层,transformers decoder模块、瓶颈隐藏层、第二投影层、文本输出头和接地输出头模块八个部分组成;其中第二投影层模块由自注意力网络、文本交叉注意力网络和图像交叉注意力网络和全连接网络四个子模块构成,其中第一投影层和接地输出头的引入,以及其训练方法的定义,实现跨模态大模型的多头输出,帮助跨模态的大语言模型在保证原有文本理解、推理的能力上,紧需要少量数据的训练,就可以实现yolo等目标检测模型同样的精度和稳定性的目标位置预测能力。
技术关键词
大语言模型
注意力
编码
图像数据处理
瓶颈
子模块
跨模态
文本理解
标识符
图片
网络模块
输出特征
矩阵
阶段
坐标