基于多模态大语言模型的目标识别及定位方法、装置及产品

正文

推荐专利

申请号：CN202411664986

申请日期：2024-11-20

公开号：CN119888164A

公开日期：2025-04-25

类型：发明专利

摘要

本发明提供了一种基于多模态大语言模型的目标识别及定位方法、装置及产品，涉及大语言模型识别领域，包括：在视觉语言大模型的分词器中加入坐标Token，并在输出端加入全连接层，得到待训练多模态大语言模型；将训练图像中的文字内容和对应的问题文本分别输入分词器得到文本编码特征和问题编码特征；将训练图像输入待训练多模态大语言模型得到图像特征；通过待训练多模态大语言模型基于图像特征和问题编码特征，得到回答文字内容及其位置坐标；基于回答文字内容和文本编码特征、文字内容的位置坐标和回答文字内容的位置坐标进行模型训练，得到训练好的多模态大语言模型，以在不改变多模态大语言模型图像识别功能的情况下，增加文本定位功能。

技术关键词

大语言模型多模态编码特征定位方法坐标文本模型训练模块图像识别功能视觉图像处理模块可读存储介质数据获取模块处理器输出端饱和度存储器对比度

基于多模态大语言模型的目标识别及定位方法、装置及产品

站点导航

APP 下载