摘要
本发明公开了一种词嵌入模型文档筛选查询方法及系统,包括以下步骤获取待查询的目标词汇和待筛选的文档集合;对文档集合预处理,包括去除停用词、词干提取或词形还原;使用预训练的词嵌入模型,将目标词汇和文档集合中的每个文档转换为词嵌入向量;计算目标词汇的词嵌入向量与文档集合中每个文档的词嵌入向量之间的相似度;根据相似度排序文档集合,选择相似度最高的前N个文档作为筛选结果;将筛选出的前N个文档按照相似度高低排序并展示给用户。本发明通过使用预训练的词嵌入模型能够将目标词汇和文档转换为高维空间中的数值化向量,这些词嵌入向量不仅捕捉了词汇的表面特征,还能反映词汇间的复杂语义关系,提高了文档筛选的准确性和相关性。
技术关键词
词嵌入模型
查询方法
查询系统
大规模语料库
监督学习方法
输入模块
输出模块
度度量方法
自然语言
词嵌入向量
数值
关键词
语义
列表
关系
系统为您推荐了相关专利信息
布隆过滤器
信息查询方法
索引
信息查询装置
密钥生成算法
图像识别检测方法
多视角
CCD相机
语义分割网络
感知特征
结构化查询方法
自然语言
语句
两阶段
大语言模型
编码器
卷积模块
信号
故障诊断方法
故障诊断模型