摘要
本发明涉及基于跨语言语义压缩的多语言生成式检索方法,属于信息检索技术领域。本发明包括步骤:构建多语文档检索数据集;通过关键词抽取模型从多角度抽取多语文档的关键词,并且使用语义相似性将抽取的关键词进行计算,构建相似性矩阵;根据相似性矩阵进行语义聚类,并使用原子ID对聚类簇进行表示,然后由关键词所在聚类簇为每个多语文档分配文档标识符;在推理阶段,输入查询后,采用动态多补约束解码方式,根据之前步骤的解码结果,逐步缩小当前步文档标识符的解码范围,从而得到最终的文档标识符。本发明的检索能力相比其他模型得到明显提高。
技术关键词
关键词
检索方法
标识符
语义
维基百科
文本编码器
解码方式
矩阵
信息检索技术
聚类
页面结构
爬虫技术
检索系统
多角度
数据
序列
阶段
动态
系统为您推荐了相关专利信息
结算系统
数据结算方法
数据采集单元
多源异构数据
通信数据处理技术