一种视觉语言模型目标检测能力增强方法

AITNT
正文
推荐专利
一种视觉语言模型目标检测能力增强方法
申请号:CN202511097208
申请日期:2025-08-06
公开号:CN120976676A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种视觉语言模型目标检测能力增强方法,包括:首先,构建包含属性、交互、方位、否定和硬负样本等复杂语义标签的推理型目标检测数据集;其次,在GRPO强化学习框架下,通过特定提示词引导VLM先生成推理过程再输出检测结果。本发明采用复合奖励函数来评估模型生成的多个候选输出,该函数包含:确保输出遵循预设思考和答案结构的格式奖励,以及一个创新的ODLength奖励。该ODLength奖励将平均精度均值与一个长度惩罚项相结合,有效抑制了冗余预测。最后,根据总奖励值更新模型策略网络。本发明能显著提升VLM在复杂推理场景下的目标检测精度与泛化能力,并提高推理效率。
技术关键词
视觉 格式 策略 语义标签 强化学习框架 答案 更新网络参数 超参数 对象交互 图像 样本 关系 比率 文本 精度 数据
系统为您推荐了相关专利信息
1
一种面向电动汽车及5G基站接入的配电网通信方法
配电网通信方法 面向电动汽车 服务器 终端设备 负荷预测模型
2
一种大模型指标查询智能问数方法
数据库结构 命名实体识别技术 生成自然语言 SQL语法 字段
3
针对混合使用多种型号芯片的算力集群的训练策略确定方法及相关装置
性能预测模型 策略 芯片架构 集群 大语言模型
4
一种用于治疗结直肠癌的树突细胞微纳机器人及制备方法
微纳机器人 磁性微球 纳米胶囊 直肠癌 磁性纳米粒子
5
视频生成方法、装置、电子设备及存储介质
图像 分块 关键帧 序列 视频生成方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号