摘要
本发明公开了一种基于大语言模型的文档检索查询改写方法及系统,收集查询改写数据集,进行相关性过滤和检索增量,保留与查询改写任务高度相关的数据样本;收集与查询改写任务高度相关的辅助任务数据集,构建多任务SFT数据集;基于GPT‑2构建自监督微调模型,以查询为输入,以查询改写为输出,使用多任务SFT数据集训练自监督微调模型;将自监督微调模型视为智能体,基于强化学习进行目标对齐,使其在生成查询改写时更符合用户意图;采用束搜索算法为每个查询生成多个候选改写,输入目标对齐的自监督微调模型,检索一组相关文档。本发明提高了检索相关性,提升了用户满意度。
技术关键词
查询改写方法
大语言模型
文档检索系统
多任务
数据
文档搜索系统
搜索算法
相关性方法
训练智能体
DQN算法
改写系统
样本
意图
处理器
计算机设备
离线
语义
可读存储介质
列表
存储器
系统为您推荐了相关专利信息
作业场所
干扰特征
风险评估方法
可燃有毒气体
多模态
融合控制方法
机器人高精度
机器人控制系统
多模态传感器
机器人伺服驱动系统
信号监测系统
脑机接口
柔性探针
多模态
数据分析模块
中医药知识图谱
注意力
多模态
语义角色
生成结构
公证摇号方法
国密算法
摇号系统
种子
伪随机数生成器