摘要
本申请涉及多模态大模型技术领域,尤其涉及多模态大模型的销售助手产品文档结构识别方法、系统。通过获取待识别的销售助手产品文档信息;将获取待识别的销售助手产品文档信息,输入预先设置的多模态模型,输出识别后的销售助手产品文档信息。可以理解的是,本发明提供的技术方案,利用多模态大模型同时利用文本和视觉信息,同时利用文字和视觉信息进行文档结构识别,识别效果优异;另外,可以降低对标注数据量的依赖,同时新场景迁移成本低;可以生成模型端到端方案,同时生成内容块位置、类型、阅读顺序,通过提出生成式损失和区域框回归损失结合的多任务损失,弥补生成式损失的局限性。
技术关键词
视觉特征信息
结构识别方法
视觉特征提取
多模态
对齐模块
特征提取器
文本
识别系统
多任务
表达式
图像
标签
坐标
场景
序列
系统为您推荐了相关专利信息
数字孪生系统
活动推荐系统
出行技术
交互系统设计
仿真环境
马铃薯育种
监测分析系统
多模态数据采集
监测分析方法
多光谱成像装置
诊断方法
深度学习模型
患者
协方差矩阵
深度学习优化
小型航天器
多模态传感器
二维图像数据
三维点云数据
分辨率