摘要
本发明公开了一种基于用户行为感知反馈的实验路径排序方法,包括:获取全路径数据集,其中所述全路径数据集包括若干种实验路径;构建感知响应模型,其中感知响应模型采用强化学习框架;所述感知响应模型根据不同交互下的状态信息和行为所获取的奖励值进行迭代更新;对所述感知响应模型进行迭代优化,获取当前状态信息,根据当前状态信息在全路径数据集中提取得到当前实验路径集,通过迭代优化过程中的感知响应模型对当前实验路径集进行排序,得到实验路径排序结果。通过上述技术方案可以通过对用户行为的感知和响应,应用强化学习的算法框架,以最大化用户实际需求的方式将满足要求的路径集进行排序输出。
技术关键词
强化学习框架
排序方法
策略
有向图结构
数据
排序系统
逼近算法
算法框架
梯度算法
代表
度量
变量
数值
元素
关系
参数
系统为您推荐了相关专利信息
智能判定方法
人工神经网络模型
卷积神经网络模型
节理裂隙
隧道掌子面
风电机组主轴承
温度预测模型
状态检测方法
预测残差
注意力神经网络
动态知识图谱
融合知识图谱
大语言模型
自然语言理解
专用模型