基于多模态大模型的图文信息抽取方法、系统及存储介质

AITNT
正文
推荐专利
基于多模态大模型的图文信息抽取方法、系统及存储介质
申请号:CN202411971194
申请日期:2024-12-30
公开号:CN120047956A
公开日期:2025-05-27
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的图文信息抽取方法、系统及存储介质。抽取方法包括:S1:选取多模态大模型;S2:针对所述多模态大模型,进行OCR基础能力训练任务;S3:针对S2训练后的多模态大模型,进行多任务混合且同时进行的图文信息抽取训练任务,其中,训练数据从多任务中随机抽取;S4:将待处理的图像输入至S3训练后的多模态大模型,输出所述原始图像中的图文信息。通过对图文信息抽取领域进行专门的训练任务设计,极大地提升了多模态大模型的字符识别率、指令遵循能力,抑制了幻觉,取得了很好的端到端信息抽取效果,显著提升了工业生产中的图文信息抽取精度。
技术关键词
信息抽取方法 图文 多模态 表格 多任务 图像 指令 实体 信息抽取系统 字符识别率 文本行 图片 格式 列表 键值 字典 处理器 样本 可读存储介质 工业生产
系统为您推荐了相关专利信息
1
基于交叉注意力多尺度融合的目标检测方法、设备及介质
注意力 可见光图像 对比度 多尺度 融合特征
2
一种基于多模态基因选择的小孩长相预测方法
图像编码器 文本编码器 人脸特征 基因 图像生成器
3
一种多模态融合矿用精确定位装置
精确定位装置 多模态 信号反射板 防护壳 基站
4
基于数字农业的农业环境监控方法及系统
异构传感器网络 设备控制指令 驱动执行机构 决策 地理位置信息
5
基于智能饲喂算法的羊群精确营养补给方法
补给方法 饲料成分 智能优化算法 资源分配 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号