基于多模态大模型的图文信息抽取方法、系统及存储介质

正文

推荐专利

申请号：CN202411971194

申请日期：2024-12-30

公开号：CN120047956A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的图文信息抽取方法、系统及存储介质。抽取方法包括：S1：选取多模态大模型；S2：针对所述多模态大模型，进行OCR基础能力训练任务；S3：针对S2训练后的多模态大模型，进行多任务混合且同时进行的图文信息抽取训练任务，其中，训练数据从多任务中随机抽取；S4：将待处理的图像输入至S3训练后的多模态大模型，输出所述原始图像中的图文信息。通过对图文信息抽取领域进行专门的训练任务设计，极大地提升了多模态大模型的字符识别率、指令遵循能力，抑制了幻觉，取得了很好的端到端信息抽取效果，显著提升了工业生产中的图文信息抽取精度。

技术关键词

信息抽取方法图文多模态表格多任务图像指令实体信息抽取系统字符识别率文本行图片格式列表键值字典处理器样本可读存储介质工业生产

系统为您推荐了相关专利信息

基于交叉注意力多尺度融合的目标检测方法、设备及介质

注意力可见光图像对比度多尺度融合特征

一种基于多模态基因选择的小孩长相预测方法

图像编码器文本编码器人脸特征基因图像生成器

一种多模态融合矿用精确定位装置

精确定位装置多模态信号反射板防护壳基站

基于数字农业的农业环境监控方法及系统

异构传感器网络设备控制指令驱动执行机构决策地理位置信息

基于智能饲喂算法的羊群精确营养补给方法

补给方法饲料成分智能优化算法资源分配参数

基于多模态大模型的图文信息抽取方法、系统及存储介质

站点导航

APP 下载