摘要
本发明公开了一种视觉语言模型目标检测能力增强方法,包括:首先,构建包含属性、交互、方位、否定和硬负样本等复杂语义标签的推理型目标检测数据集;其次,在GRPO强化学习框架下,通过特定提示词引导VLM先生成推理过程再输出检测结果。本发明采用复合奖励函数来评估模型生成的多个候选输出,该函数包含:确保输出遵循预设思考和答案结构的格式奖励,以及一个创新的ODLength奖励。该ODLength奖励将平均精度均值与一个长度惩罚项相结合,有效抑制了冗余预测。最后,根据总奖励值更新模型策略网络。本发明能显著提升VLM在复杂推理场景下的目标检测精度与泛化能力,并提高推理效率。
技术关键词
视觉
格式
策略
语义标签
强化学习框架
答案
更新网络参数
超参数
对象交互
图像
样本
关系
比率
文本
精度
数据
系统为您推荐了相关专利信息
配电网通信方法
面向电动汽车
服务器
终端设备
负荷预测模型
数据库结构
命名实体识别技术
生成自然语言
SQL语法
字段
微纳机器人
磁性微球
纳米胶囊
直肠癌
磁性纳米粒子