摘要
提供了一种基于大模型的文档数据处理方法和装置,涉及人工智能技术领域,尤其涉及大模型、计算机视觉技术。实现方案为数据处理方法包括:获取从可携带文档格式PDF文件中识别的多种不同类型的元素中的至少一个PDF元素;基于所识别的PDF元素确定待处理图像和待处理文本,其中,待处理图像包括所识别的至少一个PDF元素的图像,待处理文本包括从待处理图像中识别的文本;基于自注意力机制对待处理文本进行特征提取,以得到待处理文本的自注意力特征;基于交叉注意力机制对待处理文本的自注意力特征和待处理图像的图像特征进行特征提取,以得到用于PDF文件的文本‑图像交叉注意力特征;以及至少基于交叉注意力特征确定PDF文件的解析结果。
技术关键词
图像
交叉注意力机制
文本
文档数据处理方法
元素
特征提取单元
计算机视觉技术
格式
数据处理装置
人工智能技术
计算机程序产品
处理器通信
指令
可读存储介质
存储器
系统为您推荐了相关专利信息
全过程监控方法
疾病
生物
全过程监控系统
检索标签
服务器网络安全
测评方法
BERT模型
自动化测试脚本
依存句法分析
巡检装置
数字量采集模块
开关量采集模块
模拟量采集模块
温度检测模块
文本生成方法
主题关键词
实体
关系
文本生成装置