摘要
本申请属于人工智能技术领域,涉及一种模型强化微调方法、装置、设备及其存储介质,通过获取目标数量的任务演示数据;输入到构建完成的目标模型中,对目标模型进行离线初始训练,得到模型策略初始化后的目标模型;获取实时采集的任务指导数据;输入到模型策略初始化后的目标模型中,进行在线强化训练,得到模型策略微调后的目标模型。先以离线方式进行模型初始训练,得到初始化的模型,然后,结合实际采集数据进行在线强化学习训练,使得最终训练完成的模型更加符合实际应用场景。具体应用到医疗业务领域,例如微型机器人手术,或者金融业务领域,例如机器人进行信用卡实物制卡,保证最终训练完成的模型充分结合了大量的任务操作真实作业数据。
技术关键词
微调方法
计算机可读指令
条目
离线
在线
视觉
自然语言理解
计划
微型机器人
标注策略
可读存储介质
对象
意图
分析组件
人工智能技术
数据获取模块
微调装置
系统为您推荐了相关专利信息
观点
生成对抗网络架构
在线学习算法
决策
卫星遥感数据
智能调控方法
在线pH表
智能调控系统
磷酸盐
智能控制模块
缺陷检测方法
输液软袋
图像处理模型
管口
缺陷检测系统
状态在线评估
历史采集数据
数据采集平台
智能评估系统
智能算法