摘要
本发明属于计算机软件数据处理与文本挖掘技术领域,具体涉及一种科技项目文本的相似性检测方法和系统。方法包括以下步骤:步骤1:获取文本,并对文本进行预处理;步骤2:判断文本的应用场景,根据应用场景选择进行特征提取,然后将提取到的特征转化为固定长度的字符串,最后通过哈希计算得到文本的指纹特征;步骤3:创建索引实例,将数据添加到索引中,构建Faiss向量检索库,然后通过AAN算法进行相似性检索,获取文本的指纹特征与索引库中文本的相似度;步骤4:对检索结果进行排序和过滤处理,同时根据设定阈值,判定是否存在文本重复并输出。本发明提高了检测结果的准确性和可靠性,并提高了检测效率。
技术关键词
相似性检测方法
指纹特征
计算机软件数据处理
项目
科技
索引
文本挖掘技术
场景
队列
算法
服务器架构
数据不丢失
资源监控
数据加密
数据同步
实时数据
输出模块
系统为您推荐了相关专利信息
综合能源系统
经济评估方法
双层优化模型
数学模型
多场景
混凝土抗压强度检测
霍尔传感器
混凝土结构
实训系统
实训平台
配电系统故障
重构方法
数学模型
网络结构
电网结构