一种基于多模态大模型的文档分割方法

AITNT
正文
推荐专利
一种基于多模态大模型的文档分割方法
申请号:CN202510360928
申请日期:2025-03-25
公开号:CN120218018A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提出了一种基于多模态大模型的文档分割方法,包括以下步骤:S1,文档预处理,提取待分割文档中各模态的原始特征;S2,多模态特征编码,利用编码器对各模态的原始特征进行编码,生成能被模型识别和处理的特征表示;S3,模态融合,根据各模态的权重对多模态特征进行融合,得到融合后的文档特征表示;S4,文档分割,利用分割模型对文档特征表示进行分割,输出文档的分割边界和类别标签;S5,后处理与优化,评估分割结果的准确性,根据评估结果调整分割结果和模型参数。本发明通过融合文本、图像、表格和格式等多模态特征,结合自适应加权融合机制动态分配各模态权重,有效捕捉不同模态间的关联性与重要性差异,提高了对复杂文档的分割准确性。
技术关键词
文档分割方法 文档特征 文本 多头注意力机制 语义关联度 表格 复杂度 窗口扩展方法 多模态特征 局部注意力机制 Softmax函数 Sigmoid函数 神经网络分类器 图形交互界面 反馈系统 结构编码器
系统为您推荐了相关专利信息
1
一种文本检索增强生成方法、装置、设备及可读存储介质
关键词 生成方法 文本 机器可读指令 数据存储
2
一种基于异质图神经网络的股票价格波动预测方法
波动预测方法 异质 节点 梯度下降算法 编码器
3
一种基于混合型神经网络的无线电调制信号识别方法及系统
无线电调制信号 混合型 识别方法 神经网络模型 频域特征
4
基于深度学习的档案检索方法、系统及存储介质
检索方法 档案检索系统 数据 文本处理模型 音频
5
基于AIGC和低代码平台的工业场景构建方法及系统
数据格式 低代码平台 场景构建方法 数据项 场景构建系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号