一种视觉语言模型目标检测能力增强方法

正文

推荐专利

一种视觉语言模型目标检测能力增强方法

申请号：CN202511097208

申请日期：2025-08-06

公开号：CN120976676A

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种视觉语言模型目标检测能力增强方法，包括：首先，构建包含属性、交互、方位、否定和硬负样本等复杂语义标签的推理型目标检测数据集；其次，在GRPO强化学习框架下，通过特定提示词引导VLM先生成推理过程再输出检测结果。本发明采用复合奖励函数来评估模型生成的多个候选输出，该函数包含：确保输出遵循预设思考和答案结构的格式奖励，以及一个创新的ODLength奖励。该ODLength奖励将平均精度均值与一个长度惩罚项相结合，有效抑制了冗余预测。最后，根据总奖励值更新模型策略网络。本发明能显著提升VLM在复杂推理场景下的目标检测精度与泛化能力，并提高推理效率。

技术关键词

视觉格式策略语义标签强化学习框架答案更新网络参数超参数对象交互图像样本关系比率文本精度数据

系统为您推荐了相关专利信息

虚拟电厂与综合监控安全平台集成的智能管理系统

智能管理系统特征评估模型策略特征提取模块评估准则

汽车销量对碳达峰和碳中和的影响预测方法

时间序列预测模型新能源汽车背景值二氧化碳排放量汽车销量预测方法

一种基于虚实匹配的变电站视觉智能巡检方法及系统

智能巡检机器人智能巡检方法变电站图像视觉

一种基于实时对话语义分析的情绪监测调节系统

对话语义分析监测调节系统情感特征实时语音骨传导设备

一种IPT-CPT混合式无人机无线电能传输系统

无线电 CPT系统磁耦合机构电容区域磁场

一种视觉语言模型目标检测能力增强方法

站点导航

APP 下载