摘要
本发明公开一种基于大型语言模型智能体的搜索引擎性能评价方法及系统,属于人工智能技术领域,所述方法包括:在待评价搜索引擎中执行查询集合的搜索,得到检索结果集合;定义N种智能体的角色;计算查询和检索结果之间的相似度;向提示模板中注入智能体的角色描述、查询、检索结果、相似度以及智能体对检索结果的历史标注结果与历史标注结果的理由;基于当前标注结果与该当前标注结果的理由对历史标注结果与该历史标注结果的理由进行更新之后,重新执行,直至得到该智能体对检索结果的最终标注结果;综合各智能体对检索结果的最终标注结果,得到该待评价搜索引擎的性能评价结果。本发明可以更准确地模拟人类进行检索结果的相关性标注。
技术关键词
搜索引擎性能评价
计算机程序指令
大语言模型
计算机程序产品
计算机设备
可读存储介质
人工智能技术
数据获取模块
定义
电子设备
摘要
模板
处理器
算法
存储器
人类