文档分类方法及文档分类装置

AITNT
正文
推荐专利
文档分类方法及文档分类装置
申请号:CN202510806282
申请日期:2025-06-16
公开号:CN120821850A
公开日期:2025-10-21
类型:发明专利
摘要
本申请公开了一种文档分类方法及文档分类装置,属于计算机技术领域。方法包括:基于待分类的第一文档的文本内容,获取文本语义特征;将文本内容转换为文本嵌入向量,并将第一文档的布局信息转换为布局嵌入向量;基于第一文档的文档图像,获取视觉嵌入向量和视觉语义嵌入向量;基于文本语义特征、文本嵌入向量、布局嵌入向量、视觉嵌入向量和视觉语义嵌入向量,构建第一文档对应的图结构;对第一文档对应的图结构进行图卷积处理,得到第一文档的文档嵌入向量,并基于第一文档的文档嵌入向量,确定第一文档的类别信息。该方法融合文本、布局和视觉等多模态信息,可以更全面地捕捉文档的语义关联和上下文信息,显著提高文档分类的精度和泛化能力。
技术关键词
文档分类方法 语义特征 文本段落 视觉 文档分类装置 分段 布局 节点特征 大语言模型 关键词 关系 邻居 模块 图像 精度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号