一种模型强化微调方法、装置、设备及其存储介质

正文

推荐专利

申请号：CN202510950281

申请日期：2025-07-09

公开号：CN120893507A

公开日期：2025-11-04

类型：发明专利

摘要

本申请属于人工智能技术领域，涉及一种模型强化微调方法、装置、设备及其存储介质，通过获取目标数量的任务演示数据；输入到构建完成的目标模型中，对目标模型进行离线初始训练，得到模型策略初始化后的目标模型；获取实时采集的任务指导数据；输入到模型策略初始化后的目标模型中，进行在线强化训练，得到模型策略微调后的目标模型。先以离线方式进行模型初始训练，得到初始化的模型，然后，结合实际采集数据进行在线强化学习训练，使得最终训练完成的模型更加符合实际应用场景。具体应用到医疗业务领域，例如微型机器人手术，或者金融业务领域，例如机器人进行信用卡实物制卡，保证最终训练完成的模型充分结合了大量的任务操作真实作业数据。

技术关键词

微调方法计算机可读指令条目离线在线视觉自然语言理解计划微型机器人标注策略可读存储介质对象意图分析组件人工智能技术数据获取模块微调装置

系统为您推荐了相关专利信息

一种基于智能体反思与辩论的投研方法及系统

观点生成对抗网络架构在线学习算法决策卫星遥感数据

一种炉水加磷酸盐智能调控系统及方法

智能调控方法在线pH表智能调控系统磷酸盐智能控制模块

一种输液软袋管口缺陷检测方法及系统

缺陷检测方法输液软袋图像处理模型管口缺陷检测系统

人因智能状态实时评估方法、平台、系统和边缘计算设备

状态在线评估历史采集数据数据采集平台智能评估系统智能算法

一种病历内涵质控方法及相关装置

大语言模型质控方法病历格式模板种子

一种模型强化微调方法、装置、设备及其存储介质

站点导航

APP 下载