摘要
本发明公开了基于连续强化学习的数据处理方法及系统,属于机器学习和人工智能领域,其具体包括:从情景记忆模块和回放缓存模块中采样转换数据,计算先前和当前任务的策略网络梯度,并据此计算梯度夹角;根据梯度夹角调整当前任务梯度方向,并生成对抗性样本;使用对抗性样本更新策略网络和批评网络参数,同时动态调整学习率;迭代训练过程中,不断更新记忆模块和缓存模块,并定期评估模型性能;该方法能有效提升强化学习模型的训练效率和泛化能力,避免模型遗忘旧知识。
技术关键词
对抗性
数据处理方法
策略
网络
数据处理系统
强化学习模型
样本
模型更新
参数
强化学习框架
反余弦函数
记忆
回放模块
时序
动态
符号
格式
算法
系统为您推荐了相关专利信息
焊接缺陷检测方法
焊接缺陷检测装置
图像检测单元
神经网络模型
位点
植物健康
预警模块
预警模型
分析模块
主成分分析降维
智能分类方法
蒸馏
神经网络模型
智能分类装置
照片
环卫系统
垃圾回收设施
时序预测方法
垃圾中转站
网格
乳腺超声图像
原型
矢量量化方法
卷积神经网络参数
卷积神经网络学习