摘要
本发明实施例提供一种用于企业数字化转型平台的数据处理方法及系统,属于数据处理领域。所述方法包括:获取来自各异构数据源的结构化字段信息,并对所述结构化字段信息执行预处理操作;将处理后的结构化字段信息构造为嵌入输入序列,将所述嵌入输入序列按预设模板拼接为自然语言片段,并输入至已微调的语义编码模型中,获得对应的语义嵌入向量;采用基于密度或层次结构的聚类算法识别相似字段组,并将每组结构化字段信息归为一个语义聚类簇;针对每个语义聚类簇生成对应的标准字段标识,并将生成的标准字段标识存入数字化转型后的平台的标准字段索引库中。本发明方案显著增强企业数字化平台的字段统一管理与跨系统数据对齐能力。
技术关键词
字段
标识
自然语言
数据处理方法
序列
企业数字化平台
映射关系表
空间索引结构
局部敏感哈希
异构
密度聚类算法
语义特征
模板
术语
入库单元
唯一性
数据处理系统
系统为您推荐了相关专利信息
电力终端
终端运行数据
生成参数
数据认证方法
动态
画像生成方法
语义向量
自然语言文本
患者
大语言模型
纠错
自动化生成方法
数据
预训练语言模型
训练集
智能推荐方法
计算机可读指令
尺寸
图像处理
计算机设备