真实场景中的海量文本查重方法、系统、设备及存储介质

AITNT
正文
推荐专利
真实场景中的海量文本查重方法、系统、设备及存储介质
申请号:CN202411916164
申请日期:2024-12-24
公开号:CN119830895A
公开日期:2025-04-15
类型:发明专利
摘要
本发明公开了一种真实场景中的海量文本查重方法、系统、设备及存储介质,属于文本查重技术领域,解决现有文本查重算法在面对真实场景下海量文本数据时查重速度较慢并且缺乏对语义查重的技术问题。方法为根据真实场景建立包含向量库和文字库的文档库;选择向量化模型并进行微调训练优化得到向量化处理模型;获取用于校验查重的全部文档并生成查重数据库;获得需要被查重的文档并生成待查重数据;将待查重数据和查重数据库依次进行向量相似度比对、相同字数筛选和连续相同字数筛选,获得最终查重命中的文本内容。可以兼顾语义级和字符级的多重查验,并有效提升查重在海量文本中的计算效率。
技术关键词
文本查重方法 场景 海量文本数据 查重系统 模型训练模块 处理器 计算机设备 数值 字符 语义 可读存储介质 索引 存储器 逻辑 关系 算法
系统为您推荐了相关专利信息
1
迁移模型训练方法、电子设备及存储介质
模型训练方法 样本 周期 预测对象类别 电子设备
2
基于双时相遥感影像的洪水淹没区提取方法及装置
影像 鉴别模块 生成对抗网络模型 模型训练模块 重构
3
基于环境波动导致的水合物分解甲烷释放通量评估方法
海洋天然气水合物 模拟评估方法 甲烷 站点 海洋地质研究
4
一种三维场景下实时刷新的数据标牌加载与调度方法
标牌 场景 三维模型 相机 视角
5
一种工业废水治理控制方法、装置、设备及介质
治理控制方法 废水治理设备 设备运行参数 水质 生成控制指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号