摘要
本发明提供基于人工智能的多模态数据预处理及融合技术及系统,涉及数据处理技术领域,包括将PDF文档转换为表格图像并预处理;采用视觉大模型进行表格结构分析,通过提示文本实现零样本理解;基于合成数据集微调模型;利用语言大模型生成标准化输出;训练轻量化模型部署于边缘设备实现离线处理。本发明提高了表格识别准确度,降低了资源消耗,实现了复杂表格的高效识别与处理。
技术关键词
表格
视觉
教师
文本
计算机程序指令
离线
语义
矩阵分解方法
图像增强
多头注意力机制
样本
合并单元格
参数
数据处理技术
融合系统
嵌套结构
处理器