摘要
本发明公开了基于多级分类标引的公文文档智能切片处理方法及系统,涉及公文文档切片处理技术领域,包括通过API接口获取公文文档的扫描件进行预处理,得到图像页面;使用PyTorch加载Swin‑B模型,并将图像页面作为输入,输出特征图进行划分,并定义为条带,利用平均池化操作压缩条带的高度维度,并结合L2范数计算条带的横向特征密度,使用网格生成法生成条带内像素点坐标,并通过poly2mask函数生成条带的空间掩膜,结合指示函数进行像素点筛选,计算距离权重,并构建加权核函数后结合特征密度,筛选有效条带;本发明显著提升了切片结果的完整性与准确性。
技术关键词
文本特征向量
Viterbi算法
切片
条带
横向特征
语义向量
注意力
初始聚类中心
像素点
定义
输出特征
标签
页面
视觉
序列
BERT模型
基础
图像
系统为您推荐了相关专利信息
补丁
Solidity智能合约
代码切片
生成代码
分析工具
定位辅助结构
成型元件
三维成形方法
成形部件
粉末床
马铃薯干物质
成分含量
机器学习模型
融合特征
偏最小二乘回归模型
资源分配策略
资源调度模型
网络切片资源
5G网络切片
网络模块