基于跨语言语义压缩的多语言生成式检索方法

AITNT
正文
推荐专利
基于跨语言语义压缩的多语言生成式检索方法
申请号:CN202510851760
申请日期:2025-06-24
公开号:CN120892582A
公开日期:2025-11-04
类型:发明专利
摘要
本发明涉及基于跨语言语义压缩的多语言生成式检索方法,属于信息检索技术领域。本发明包括步骤:构建多语文档检索数据集;通过关键词抽取模型从多角度抽取多语文档的关键词,并且使用语义相似性将抽取的关键词进行计算,构建相似性矩阵;根据相似性矩阵进行语义聚类,并使用原子ID对聚类簇进行表示,然后由关键词所在聚类簇为每个多语文档分配文档标识符;在推理阶段,输入查询后,采用动态多补约束解码方式,根据之前步骤的解码结果,逐步缩小当前步文档标识符的解码范围,从而得到最终的文档标识符。本发明的检索能力相比其他模型得到明显提高。
技术关键词
关键词 检索方法 标识符 语义 维基百科 文本编码器 解码方式 矩阵 信息检索技术 聚类 页面结构 爬虫技术 检索系统 多角度 数据 序列 阶段 动态
系统为您推荐了相关专利信息
1
可搜索加密方案的数据库原生实现方法
客户端 语句 可搜索加密机制 算法模块 标识符
2
一种数据结算系统、方法及电子设备
结算系统 数据结算方法 数据采集单元 多源异构数据 通信数据处理技术
3
EDA软件的脚本处理方法及电子设备
EDA软件 脚本 接口 序列 语句
4
一种机器人室内物体导航方法及系统
物体 导航方法 语义点云 地图更新方式 策略
5
一种基于LLM模型的云资源编排方法、系统、设备及介质
资源编排方法 模板 运维工具 常用工具 脚本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号