摘要
本发明涉及自然语言处理技术领域,具体为基于语义合成和文本向量化的数据湖元数据治理方法,包括以下步骤:基于数据湖中数据源的字段名称、数据类型与描述信息,进行字段内容关键词及相邻上下文词的向量编码,提取字段在差异化上下文的语义共现组,识别语义向量间的距离,判断是否在同类字段分组范围内,得到字段语义归集量。本发明中,通过字段关键词及上下文向量编码提取语义共现关系,构建语义层级结构,提升字段划分精度与抽象能力,结合上下文语义结构判断一致性,调整高频替代路径优化语义结构,融合词向量相似度与结构保留率实现字段归并,提升治理结构连贯性与准确性,增强数据湖中元数据治理的智能性与一致性。
技术关键词
数据治理方法
字段
语义结构
语义向量
层级
代表
文本
日志
语义特征
关键词
融合词向量
结构组
高频率
分层
编码
自然语言
偏差
系统为您推荐了相关专利信息
人工智能引擎
计算机可读取储存介质
自然语言
系统配置信息
计算机设备
手持交互设备
三维模型
三维教学系统
追踪设备
按键