基于跨语言语义压缩的多语言生成式检索方法

正文

推荐专利

申请号：CN202510851760

申请日期：2025-06-24

公开号：CN120892582A

公开日期：2025-11-04

类型：发明专利

摘要

本发明涉及基于跨语言语义压缩的多语言生成式检索方法，属于信息检索技术领域。本发明包括步骤：构建多语文档检索数据集；通过关键词抽取模型从多角度抽取多语文档的关键词，并且使用语义相似性将抽取的关键词进行计算，构建相似性矩阵；根据相似性矩阵进行语义聚类，并使用原子ID对聚类簇进行表示，然后由关键词所在聚类簇为每个多语文档分配文档标识符；在推理阶段，输入查询后，采用动态多补约束解码方式，根据之前步骤的解码结果，逐步缩小当前步文档标识符的解码范围，从而得到最终的文档标识符。本发明的检索能力相比其他模型得到明显提高。

技术关键词

关键词检索方法标识符语义维基百科文本编码器解码方式矩阵信息检索技术聚类页面结构爬虫技术检索系统多角度数据序列阶段动态

系统为您推荐了相关专利信息

可搜索加密方案的数据库原生实现方法

客户端语句可搜索加密机制算法模块标识符

一种数据结算系统、方法及电子设备

结算系统数据结算方法数据采集单元多源异构数据通信数据处理技术

EDA软件的脚本处理方法及电子设备

EDA软件脚本接口序列语句

一种机器人室内物体导航方法及系统

物体导航方法语义点云地图更新方式策略

一种基于LLM模型的云资源编排方法、系统、设备及介质

资源编排方法模板运维工具常用工具脚本

基于跨语言语义压缩的多语言生成式检索方法

站点导航

APP 下载