摘要
本发明提供了一种基于多模态大语言模型的目标识别及定位方法、装置及产品,涉及大语言模型识别领域,包括:在视觉语言大模型的分词器中加入坐标Token,并在输出端加入全连接层,得到待训练多模态大语言模型;将训练图像中的文字内容和对应的问题文本分别输入分词器得到文本编码特征和问题编码特征;将训练图像输入待训练多模态大语言模型得到图像特征;通过待训练多模态大语言模型基于图像特征和问题编码特征,得到回答文字内容及其位置坐标;基于回答文字内容和文本编码特征、文字内容的位置坐标和回答文字内容的位置坐标进行模型训练,得到训练好的多模态大语言模型,以在不改变多模态大语言模型图像识别功能的情况下,增加文本定位功能。
技术关键词
大语言模型
多模态
编码特征
定位方法
坐标
文本
模型训练模块
图像识别功能
视觉
图像处理模块
可读存储介质
数据获取模块
处理器
输出端
饱和度
存储器
对比度