一种视觉语言模型目标检测能力增强方法

AITNT
正文
推荐专利
一种视觉语言模型目标检测能力增强方法
申请号:CN202511097208
申请日期:2025-08-06
公开号:CN120976676A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种视觉语言模型目标检测能力增强方法,包括:首先,构建包含属性、交互、方位、否定和硬负样本等复杂语义标签的推理型目标检测数据集;其次,在GRPO强化学习框架下,通过特定提示词引导VLM先生成推理过程再输出检测结果。本发明采用复合奖励函数来评估模型生成的多个候选输出,该函数包含:确保输出遵循预设思考和答案结构的格式奖励,以及一个创新的ODLength奖励。该ODLength奖励将平均精度均值与一个长度惩罚项相结合,有效抑制了冗余预测。最后,根据总奖励值更新模型策略网络。本发明能显著提升VLM在复杂推理场景下的目标检测精度与泛化能力,并提高推理效率。
技术关键词
视觉 格式 策略 语义标签 强化学习框架 答案 更新网络参数 超参数 对象交互 图像 样本 关系 比率 文本 精度 数据
系统为您推荐了相关专利信息
1
虚拟电厂与综合监控安全平台集成的智能管理系统
智能管理系统 特征评估模型 策略 特征提取模块 评估准则
2
汽车销量对碳达峰和碳中和的影响预测方法
时间序列预测模型 新能源汽车 背景值 二氧化碳排放量 汽车销量预测方法
3
一种基于虚实匹配的变电站视觉智能巡检方法及系统
智能巡检机器人 智能巡检方法 变电站 图像 视觉
4
一种基于实时对话语义分析的情绪监测调节系统
对话语义分析 监测调节系统 情感特征 实时语音 骨传导设备
5
一种IPT-CPT混合式无人机无线电能传输系统
无线电 CPT系统 磁耦合机构 电容 区域磁场
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号