摘要
本发明公开了一种视觉语言模型目标检测能力增强方法,包括:首先,构建包含属性、交互、方位、否定和硬负样本等复杂语义标签的推理型目标检测数据集;其次,在GRPO强化学习框架下,通过特定提示词引导VLM先生成推理过程再输出检测结果。本发明采用复合奖励函数来评估模型生成的多个候选输出,该函数包含:确保输出遵循预设思考和答案结构的格式奖励,以及一个创新的ODLength奖励。该ODLength奖励将平均精度均值与一个长度惩罚项相结合,有效抑制了冗余预测。最后,根据总奖励值更新模型策略网络。本发明能显著提升VLM在复杂推理场景下的目标检测精度与泛化能力,并提高推理效率。
技术关键词
视觉
格式
策略
语义标签
强化学习框架
答案
更新网络参数
超参数
对象交互
图像
样本
关系
比率
文本
精度
数据
系统为您推荐了相关专利信息
智能管理系统
特征评估模型
策略
特征提取模块
评估准则
时间序列预测模型
新能源汽车
背景值
二氧化碳排放量
汽车销量预测方法
对话语义分析
监测调节系统
情感特征
实时语音
骨传导设备