一种基于大语言模型的文档检索查询改写方法及系统

AITNT
正文
推荐专利
一种基于大语言模型的文档检索查询改写方法及系统
申请号:CN202411939591
申请日期:2024-12-26
公开号:CN120011482B
公开日期:2025-12-12
类型:发明专利
摘要
本发明公开了一种基于大语言模型的文档检索查询改写方法及系统,收集查询改写数据集,进行相关性过滤和检索增量,保留与查询改写任务高度相关的数据样本;收集与查询改写任务高度相关的辅助任务数据集,构建多任务SFT数据集;基于GPT‑2构建自监督微调模型,以查询为输入,以查询改写为输出,使用多任务SFT数据集训练自监督微调模型;将自监督微调模型视为智能体,基于强化学习进行目标对齐,使其在生成查询改写时更符合用户意图;采用束搜索算法为每个查询生成多个候选改写,输入目标对齐的自监督微调模型,检索一组相关文档。本发明提高了检索相关性,提升了用户满意度。
技术关键词
查询改写方法 大语言模型 文档检索系统 多任务 数据 文档搜索系统 搜索算法 相关性方法 训练智能体 DQN算法 改写系统 样本 意图 处理器 计算机设备 离线 语义 可读存储介质 列表 存储器
系统为您推荐了相关专利信息
1
一种基于多模态分析的重大危险源风险评估方法及系统
作业场所 干扰特征 风险评估方法 可燃有毒气体 多模态
2
机器人高精度伺服驱动与多模态传感融合控制方法
融合控制方法 机器人高精度 机器人控制系统 多模态传感器 机器人伺服驱动系统
3
一种微创植入式脑机接口颅内多模态信号监测系统
信号监测系统 脑机接口 柔性探针 多模态 数据分析模块
4
基于多模态图注意力网络的临床中医药知识图谱构建方法
中医药知识图谱 注意力 多模态 语义角色 生成结构
5
一种基于国密算法可追溯的公证摇号系统及方法
公证摇号方法 国密算法 摇号系统 种子 伪随机数生成器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号