摘要
本申请公开了一种基于弹性搜索的文献语义搜索方法及系统,涉及数据检索:利用基于CoSENT方法训练的text2vec‑base‑multilingual模型对名词短语列表进行向量化处理;根据语义向量,在第二检索模块中进行近似最近邻搜索,得到第一候选数据;将查询文本数据输入第一检索模块,通过BM25算法进行关键词匹配,得到第二候选数据;将第一候选数据和第二候选数据进行融合,得到第三候选数据;采用Sequence Matcher算法计算第三候选数据中扩展词之间的字符串相似度,基于最长公共子序列长度设定相似度阈值并进行去重,得到第四候选数据;对第四候选数据进行基于位置和相似度得分的权重分配,通过扩大得分区间增强扩展词区分度,得到扩展词推荐列表数据。本申请显著提高文献检索的准确性。
技术关键词
语义搜索方法
数据
语义向量
文本
列表
倒排索引结构
逻辑
纠错
模块
排序损失
算法
语义搜索系统
关键词
统计语言模型
样本
序列
语法结构
对象
字符