摘要
本发明提出了一种基于多模态大模型的文档分割方法,包括以下步骤:S1,文档预处理,提取待分割文档中各模态的原始特征;S2,多模态特征编码,利用编码器对各模态的原始特征进行编码,生成能被模型识别和处理的特征表示;S3,模态融合,根据各模态的权重对多模态特征进行融合,得到融合后的文档特征表示;S4,文档分割,利用分割模型对文档特征表示进行分割,输出文档的分割边界和类别标签;S5,后处理与优化,评估分割结果的准确性,根据评估结果调整分割结果和模型参数。本发明通过融合文本、图像、表格和格式等多模态特征,结合自适应加权融合机制动态分配各模态权重,有效捕捉不同模态间的关联性与重要性差异,提高了对复杂文档的分割准确性。
技术关键词
文档分割方法
文档特征
文本
多头注意力机制
语义关联度
表格
复杂度
窗口扩展方法
多模态特征
局部注意力机制
Softmax函数
Sigmoid函数
神经网络分类器
图形交互界面
反馈系统
结构编码器
系统为您推荐了相关专利信息
无线电调制信号
混合型
识别方法
神经网络模型
频域特征
数据格式
低代码平台
场景构建方法
数据项
场景构建系统