摘要
本申请实施例提供了一种多模态大模型训练方法、目标检测方法、装置及电子设备,涉及人工智能技术领域,多模态大模型训练方法包括:获取多个样本图像和图像中对象标注框的第一样本描述文本;利用第一大语言模型和第一文本提示,提取每一样本图像对应的第一样本描述文本所描述的对象的类别名称以及属性,并将得到的类别名称与属性中的至少一个进行组合,得到第二样本描述文本;确定该样本图像中每一对象标注框与对应的多个第二样本描述文本的每一属性是否相匹配;构建包含第二样本描述文本的样本问题以及对应的思维链形式的样本回答,得到问答样本对;利用构建的问答样本对进行多模态大模型的训练。可以降低描述性目标检测的复杂性,提高检测效率。
技术关键词
文本
样本
图像
大语言模型
对象
多模态
模型训练方法
模型训练装置
电子设备
人工智能技术
数据获取模块
图文
存储器
参数
处理器
程序
系统为您推荐了相关专利信息
多模态数据采集
监测系统
高频超声探头
图像特征识别
压力传感器阵列