摘要
本发明属于人机交互技术领域,具体涉及一种基于决策者偏好的人机交互方法,能够精确捕捉和量化决策者对于不同策略的偏好,选出最佳决策结果。该方法的具体过程为:与仿真环境交互进行轨迹数据生成;随机截取设定长度的轨迹数据,并两两组合进行决策者偏好标签标注,构成用于训练的样本数据;利用所述样本数据进行神经网络训练,神经网络输出每一时间步对应的偏好得分和对应权重,得到偏好预测结果,计算损失函数并更新神经网络参数;将给定的若干个均衡策略输入仿真环境中,获得轨迹数据,利用训练好的神经网络获得轨迹数据的偏好得分和对应权重,进一步计算出最优的策略。
技术关键词
人机交互方法
神经网络参数
神经网络训练
仿真环境
均衡策略
线性变换矩阵
数据
标签
人机交互技术
注意力
样本
生成轨迹
编码
代表
决策
总量
人类
系统为您推荐了相关专利信息
自动驾驶运动规划
大语言模型
仿真环境
轨迹
运动规划系统
智能驾驶辅助
驾驶决策模型
决策方法
危险场景
风险
水分自动控制方法
OPC服务器
智能算法
PLC系统
PLC控制系统
优化神经网络
室内定位方法
算法
BP神经网络训练
BP神经网络模型
传感器
SAC算法
非正交多址接入
轨迹规划方法
接收信号强度RSS定位