摘要
本发明涉及计算机技术领域,提供混合排序模型训练方法、旅游搜索混合排序方法及设备。混合排序模型训练方法包括:构建样本数据:包括状态数据、动作数据和奖励数据,状态数据表征各旅游品类的候选对象和用户的属性,动作数据表征各旅游品类的候选对象的混排结果,奖励数据表征用户对混排结果的操作;利用样本数据训练基于强化学习构建的混合排序模型:根据当前状态的状态数据和动作数据计算当前状态的动作价值,根据下一状态的状态数据和动作数据计算下一状态的动作价值,根据当前状态的奖励数据、当前状态的动作价值和下一状态的动作价值,计算模型损失并调整模型参数。本发明通过强化学习和个性化推荐,提升旅游搜索的效率和用户体验。
技术关键词
排序模型训练方法
混合排序方法
数据
深度Q网络
对象
上下文特征
搜索特征
画像特征
偏好特征
生成向量
计算机程序产品
处理器
样本
因子
队列
门票
玩乐
存储器
参数