摘要
本发明公开了基于深度语义与上下文自适应的表头列识别方法,包括:利用表格解析工具对目标表格文件进行结构化解析,获取目标表格文件对应的目标表头文本、目标表格主体文本和目标表格结构;对目标表头文本进行特征编码,获得目标表头特征;对目标表格主体文本和目标表格结构进行特征提取,获得目标场景上下文特征;将目标表头特征和目标场景上下文特征进行融合,生成目标综合特征;将目标综合特征输入至表头语义分类模型中,输出目标表格文件对应的每个类别的概率,取概率最大的类别作为最终表头语义分类结果。该方法不仅能够自动提取和理解表头的深层语义,还能充分利用表格内容和业务场景的上下文信息,准确判别表头在不同任务下的实际含义。
技术关键词
表头
场景上下文
表格
语义
识别方法
标签
样本
文本编码器
解析工具
大语言模型
生成同义词
训练语言模型
学习方法
聚类算法
条目
数据
格式
系统为您推荐了相关专利信息
时序预测模型
身份识别方法
风险
时间序列特征
身份识别系统
样本
模型构建方法
系统测试用例
单元测试用例
数据
实体
数据关联规则
档案库
因子
PageRank算法