摘要
公开了一种目标策略模型的训练方法、指令执行方法、装置及介质。其中,目标策略模型的训练方法包括:确定待执行的指令序列;确定用于执行指令序列硬件的内存占用信息;基于指令序列、内存占用信息以及初始策略模型,确定指令序列对应的执行方式;对执行方式进行评估,得到评估信息;基于指令序列、内存占用信息、执行方式以及评估信息,对初始策略模型进行迭代训练;响应于迭代训练后的初始策略模型满足预设训练结束条件,将迭代训练后的初始策略模型作为目标策略模型。本公开的实施例可以提升指令序列的执行效率。
技术关键词
序列
策略
内存
指令执行方法
模块
指令执行装置
强化学习算法
训练装置
电子设备
处理器
可读存储介质
网络
存储器
计算机
系统为您推荐了相关专利信息
动态监测方法
动态监测系统
大语言模型
语义
可读存储介质
多端口能量路由器
双有源全桥变换器
直流供电系统
三端口
模块化多电平换流器
群体智能算法
地下电缆监控
数据融合算法
数据整合方法
故障诊断模型
图像生成模型
速率
图像处理方法
参数
图像处理模块