一种面向视觉语言慢思考推理的半离线策略强化学习方法

正文

推荐专利

申请号：CN202510875585

申请日期：2025-06-27

公开号：CN120781972A

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及一种面向视觉语言慢思考推理的半离线策略强化学习方法，旨在解决当前大规模视觉语言模型(LVLM)在复杂多模态任务中的推理能力不足的问题，发明涉及可扩展的半离线策略强化学习(SOPHIA)框架，包括构建结合在线策略视觉理解与离线策略推理的半离策略行为模型、设计视觉与推理奖励的回传与分配机制以及基于视觉和推理奖励的离线策略优化方法三部分。与现有技术相比，本发明系统性提升LVLM的视觉慢思考推理能力，同时克服现有方法在视觉理解一致性与推理泛化能力方面的不足，提升LVLM的视觉慢思考推理能力。

技术关键词

强化学习方法视觉离线轨迹策略优化方法答案样本图像结构大语言模型信号电子设备程序可读存储介质多模态文本存储器在线数据

系统为您推荐了相关专利信息

基于虚拟专用网络隧道进行报文传输的方法和电子设备

虚拟专用网络重传时间间隔报文二层隧道协议现场监控单元

一种SmartGo引导型智慧购物车识别系统

识别系统图形用户界面单元智能购物车可视化管理平台运动控制模块

一种基于机器视觉的智能眼镜环境感知方法及系统

环境感知方法三维环境地图智能眼镜立体图像数据语义标签

一种基于视觉大模型的交互式桥梁点云语义分割方法

点云语义分割方法桥梁生成提示信息三维点云分割视觉

一种用于工地的智能安全监管方法及系统

安全监管方法神经网络模型监控设备曲线工地

一种面向视觉语言慢思考推理的半离线策略强化学习方法

站点导航

APP 下载