摘要
本申请公开了一种基于文本分块的文件内容识别方法、装置、设备及介质,涉及计算机技术领域。包括:分别对第一目标文件以及第二目标文件执行分块操作,以得到若干与第一目标文件以及第二目标文件分别对应的文件分块,并分别计算每个文件分块对应的分块指纹信息;基于若干分块指纹信息生成与第一目标文件以及第二目标文件分别对应的第一文件指纹信息以及第二文件指纹信息,并基于第一文件指纹信息以及第二文件指纹信息确定第一目标文件以及第二目标文件的文件相似度指标;基于文件相似度指标以及第一目标文件和第二目标文件的文件内容确定目标文件内容。由此能够基于计算文本的相似度识别整体文件内容或部分文件内容。
技术关键词
内容识别方法
分块策略
指纹
文件内容识别
文本
指标
局部敏感哈希算法
分段
摘要算法
索引
分词
可读存储介质
处理器
标记
动态
电子设备
模块
存储器
系统为您推荐了相关专利信息
语义分割模型
表格解析方法
图像
训练系统
解析系统
知识图谱构建
知识图谱补全
补全方法
三元组
海洋
语音识别方法
电视棒
构建语音识别模型
指令推理
离散余弦变换
智能外呼机器人
语音识别模块
语音识别系统
语音识别引擎
号码