一种面向大语言模型快速实现图像接地能力的系统和方法

AITNT
正文
推荐专利
一种面向大语言模型快速实现图像接地能力的系统和方法
申请号:CN202411871500
申请日期:2024-12-18
公开号:CN119762938A
公开日期:2025-04-04
类型:发明专利
摘要
本发明公开了一种面向大语言模型快速实现图像接地能力的系统和方法,涉及图像数据处理领域,所述系统包括该系统包含视觉编码层、文本编码层,第一投影层,transformers decoder模块、瓶颈隐藏层、第二投影层、文本输出头和接地输出头模块八个部分组成;其中第二投影层模块由自注意力网络、文本交叉注意力网络和图像交叉注意力网络和全连接网络四个子模块构成,其中第一投影层和接地输出头的引入,以及其训练方法的定义,实现跨模态大模型的多头输出,帮助跨模态的大语言模型在保证原有文本理解、推理的能力上,紧需要少量数据的训练,就可以实现yolo等目标检测模型同样的精度和稳定性的目标位置预测能力。
技术关键词
大语言模型 注意力 编码 图像数据处理 瓶颈 子模块 跨模态 文本理解 标识符 图片 网络模块 输出特征 矩阵 阶段 坐标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号