摘要
本发明公开了一种基于视觉‑语言多模算法的大纲层级提取方法。本发明公开的方法通过视觉检测算法提取粗大纲,去除冗余信息以提高提取的准确性。随后,本发明结合多模态技术,采用视觉信息与语义信息融合的方式,实现大纲层级分类与编号输出,大幅提升处理效率与普适性,为复杂文档的结构化解析提供了一种高效解决方案。
技术关键词
层级
视觉特征
识别页面
关键短语检测
视觉检测算法
格式
文本检测模型
多模态技术
语义关键词
语义特征提取
插件机制
节点
分段
图像
语义向量
系统为您推荐了相关专利信息
交通标志识别
地图构建方法
车道检测
卷积神经网络模型
视觉特征
配电网工程
CIM模型
数据库构建方法
节点
层级
数据融合方法
语义标签
节点
多尺度语义特征
LiDAR点云