摘要
本发明实施例提供了一种基于大语言模型和强化学习的数学孪生体构建方法。该方法包括:训练一个用于生成奖励函数的大型语言模型LLM,该LLM通过微调和基于交互反馈的强化学习技术,从人类奖励中改进并受益;生成初始奖励函数,利用GPU加速的虚拟环境和组件定义,自动化筛选构建奖励函数;通过迭代进化,从LLM中采样多个独立的奖励函数输出,执行上下文奖励突变,并根据文本反馈提出改进的奖励函数;反思奖励函数,利用LLM的指令遵循和上下文改进能力,根据策略训练的文本摘要来修改现有奖励代码;进行全局优化,通过多次独立随机重启,选择最佳的奖励函数作为最终解。本方法对孪生体机理模型体系构建起到有效补充,从而更快更准确构建数字孪生体。
技术关键词
体构建方法
大语言模型
强化学习技术
生成可执行
数字孪生体
文本
数学
摘要
策略
度函数
人类
数据
快照
定义
指令
序列
系统为您推荐了相关专利信息
样本生成方法
大语言模型
文本
人工智能信息安全技术
数据
风险监测系统
数据项
大语言模型
风险评估值
冗余
大语言模型
更新词库
资料
诊断方法
旋转机械状态
自然语言查询方法
自然语言查询系统
关系型数据库
大语言模型
关键字