多模态大模型的销售助手产品文档结构识别方法、系统

正文

推荐专利

申请号：CN202411635382

申请日期：2024-11-15

公开号：CN119580292A

公开日期：2025-03-07

类型：发明专利

摘要

本申请涉及多模态大模型技术领域，尤其涉及多模态大模型的销售助手产品文档结构识别方法、系统。通过获取待识别的销售助手产品文档信息；将获取待识别的销售助手产品文档信息，输入预先设置的多模态模型，输出识别后的销售助手产品文档信息。可以理解的是，本发明提供的技术方案，利用多模态大模型同时利用文本和视觉信息，同时利用文字和视觉信息进行文档结构识别，识别效果优异；另外，可以降低对标注数据量的依赖，同时新场景迁移成本低；可以生成模型端到端方案，同时生成内容块位置、类型、阅读顺序，通过提出生成式损失和区域框回归损失结合的多任务损失，弥补生成式损失的局限性。

技术关键词

视觉特征信息结构识别方法视觉特征提取多模态对齐模块特征提取器文本识别系统多任务表达式图像标签坐标场景序列

系统为您推荐了相关专利信息

诊疗样本的构造、辅助诊疗大模型的训练方法及装置

样本标签图谱强化学习算法数据

图像检测及其模型训练方法、设备、存储介质及程序产品

视觉特征提取图像检测模型样本图像检测方法重构

一种基于工具学习的多模态共情回复生成方法

回复生成方法生成工具聊天机器人字段基座

融合双目视觉与IMU的智能管道检测机器人及其实现方法

智能管道检测机器人融合双目视觉环境感知模型双目视觉模块障碍物识别

一种文书翻译方法、装置及设备

大语言模型文库模板校正翻译方法

多模态大模型的销售助手产品文档结构识别方法、系统

站点导航

APP 下载