摘要
本申请涉及多模态大模型技术领域,尤其涉及多模态大模型的销售助手产品文档结构识别方法、系统。通过获取待识别的销售助手产品文档信息;将获取待识别的销售助手产品文档信息,输入预先设置的多模态模型,输出识别后的销售助手产品文档信息。可以理解的是,本发明提供的技术方案,利用多模态大模型同时利用文本和视觉信息,同时利用文字和视觉信息进行文档结构识别,识别效果优异;另外,可以降低对标注数据量的依赖,同时新场景迁移成本低;可以生成模型端到端方案,同时生成内容块位置、类型、阅读顺序,通过提出生成式损失和区域框回归损失结合的多任务损失,弥补生成式损失的局限性。
技术关键词
视觉特征信息
结构识别方法
视觉特征提取
多模态
对齐模块
特征提取器
文本
识别系统
多任务
表达式
图像
标签
坐标
场景
序列
系统为您推荐了相关专利信息
视觉特征提取
图像检测模型
样本
图像检测方法
重构
智能管道检测机器人
融合双目视觉
环境感知模型
双目视觉模块
障碍物识别