基于多模态大语言模型的开放目标检测模型优化方法

AITNT
正文
推荐专利
基于多模态大语言模型的开放目标检测模型优化方法
申请号:CN202411492889
申请日期:2024-10-24
公开号:CN119445074A
公开日期:2025-02-14
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的开放目标检测模型优化方法。该方法包括以下步骤:1)利用多模态大语言模型(Vision Large Language Model,VLM)描述图片中的环境;2)利用图片环境的文本描述辅助开放目标检测的训练;3)在推理过程中,将图片环境作为条件优化开放目标检测的输出标签。通过这一优化方案,可以在保持原模型性能的同时,利用多模态大语言模型的开放环境描述能力,提升目标标签的识别准确性。这一方法适用于视觉语言多模态领域的研究和实践。
技术关键词
大语言模型 模型优化方法 多模态 图片 文本 视觉 标签 编码 画面 模块 坐标
系统为您推荐了相关专利信息
1
一种基于大模型的任务流数据分析方法
数据分析方法 深度学习算法 文本 对象 循环神经网络模型
2
深度学习与语义推理复合的配置风控智能系统
指令 智能系统 生成器网络 鉴权模块 语义
3
图像生成方法、模型训练方法、装置及电子设备
语义特征 样本 视觉特征 文本 编码器
4
显示设备与控件启动方法
控件 语义 显示设备 图片 截屏
5
一种基于深度神经网络的机电点检设备故障诊断方法
深度神经网络 点检设备 故障诊断方法 多任务损失函数 训练样本数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号