摘要
本发明提供了一种文档处理方法、装置、设备及介质,可以应用于人工智能技术领域。该方法包括:响应于接收到的待处理文档的文档类型为目标文档类型,对待处理文档包括的页面图片进行区域划分,得到至少一个划分区域;对页面图片进行字符提取,得到至少一个字符数据和至少一个字符数据各自的位置范围;基于至少一个字符数据各自的位置范围和至少一个划分区域各自的位置范围,对属于同一个划分区域的字符数据进行拼接,得到至少一个文本块数据;将至少一个文本块数据的向量化表示存储至数据库中,以便于响应于文档查询指令,基于数据库中与文档查询指令匹配的目标向量化表示,确定目标查询文档。
技术关键词
页面图片
字符
数据
分析向量化
文本
指令
大语言模型
标签
元素
像素
人工智能技术
布局
处理器
可读存储介质
模块
电子设备
意图
语义
系统为您推荐了相关专利信息
监控告警方法
神经网络模型
堡垒机
图像
终端屏幕
复杂度
数据立方体
视觉
可视化图表
Apriori算法
桥梁施工平台
立柱支撑结构
Y型桥墩
支撑框架
顶升框架