一种基于文本分块的文件内容识别方法、装置、设备及介质

AITNT
正文
推荐专利
一种基于文本分块的文件内容识别方法、装置、设备及介质
申请号:CN202510580654
申请日期:2025-05-07
公开号:CN120408219A
公开日期:2025-08-01
类型:发明专利
摘要
本申请公开了一种基于文本分块的文件内容识别方法、装置、设备及介质,涉及计算机技术领域。包括:分别对第一目标文件以及第二目标文件执行分块操作,以得到若干与第一目标文件以及第二目标文件分别对应的文件分块,并分别计算每个文件分块对应的分块指纹信息;基于若干分块指纹信息生成与第一目标文件以及第二目标文件分别对应的第一文件指纹信息以及第二文件指纹信息,并基于第一文件指纹信息以及第二文件指纹信息确定第一目标文件以及第二目标文件的文件相似度指标;基于文件相似度指标以及第一目标文件和第二目标文件的文件内容确定目标文件内容。由此能够基于计算文本的相似度识别整体文件内容或部分文件内容。
技术关键词
内容识别方法 分块策略 指纹 文件内容识别 文本 指标 局部敏感哈希算法 分段 摘要算法 索引 分词 可读存储介质 处理器 标记 动态 电子设备 模块 存储器
系统为您推荐了相关专利信息
1
语义分割模型的训练方法及系统、表格解析方法及系统
语义分割模型 表格解析方法 图像 训练系统 解析系统
2
一种面向海洋领域的多模态知识图谱构建与补全方法
知识图谱构建 知识图谱补全 补全方法 三元组 海洋
3
一种基于人工智能的用于电视棒的语音识别方法及系统
语音识别方法 电视棒 构建语音识别模型 指令推理 离散余弦变换
4
基于深度神经网络的人脸检测方法及设备
挖掘算法 面部 文本段落 图像 人脸检测方法
5
智能外呼机器人自动判别虚拟号码电话状态的方法和系统
智能外呼机器人 语音识别模块 语音识别系统 语音识别引擎 号码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号