摘要
本发明提供了一种自适应AI面试的方法、装置、电子设备和存储介质,属于人工智能的技术领域,该方法中,可根据面试回答动态调整下一步的操作(即规则指令,或,策略优化行为,具体为下一面试问题,或,终止面试),动态适应性好,更加灵活,另外,在综合评分时,采用了混合评分策略,更加科学,当当前状态不满足预设规则中的触发条件时,还会采用离线强化学习智能体对当前状态进行智能决策,进而得到策略优化行为,准确性更好,此外,预设规则为预先配置的,可控性好,且离线强化学习智能体为保守Q学习算法,在训练时,会通过保守正则化项抑制训练数据集分布外的行为的Q值高估,这样,不合规的行为会被抑制,也就是更加可控,合规。
技术关键词
Q学习算法
策略
关键词
日志
语义
警示标签
离线
序列特征
预训练语言模型
指令
电子设备
处理器
可读存储介质
阶段
检查单元
决策
动态
报告
数据
存储器
系统为您推荐了相关专利信息
系统控制方法
历史工况数据
发动机工况
车辆行驶工况
数学模型
数据交换控制模块
数据交换系统
数据压缩
标识符
加密
威胁情报分析方法
大语言模型
汇总器
节点
网络流量数据