基于语义合成和文本向量化的数据湖元数据治理方法

正文

推荐专利

申请号：CN202510629028

申请日期：2025-05-16

公开号：CN120181094B

公开日期：2025-08-12

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，具体为基于语义合成和文本向量化的数据湖元数据治理方法，包括以下步骤：基于数据湖中数据源的字段名称、数据类型与描述信息，进行字段内容关键词及相邻上下文词的向量编码，提取字段在差异化上下文的语义共现组，识别语义向量间的距离，判断是否在同类字段分组范围内，得到字段语义归集量。本发明中，通过字段关键词及上下文向量编码提取语义共现关系，构建语义层级结构，提升字段划分精度与抽象能力，结合上下文语义结构判断一致性，调整高频替代路径优化语义结构，融合词向量相似度与结构保留率实现字段归并，提升治理结构连贯性与准确性，增强数据湖中元数据治理的智能性与一致性。

技术关键词

数据治理方法字段语义结构语义向量层级代表文本日志语义特征关键词融合词向量结构组高频率分层编码自然语言偏差

系统为您推荐了相关专利信息

装备数字孪生集成演化模型可信度的快速在线评估方法

在线评估方法模型误差装备参数评分机制

基于大模型的资源推荐方法、训练方法、装置、设备和介质

样本资源推荐方法网络资源推荐模型文本

一种SBC包围测试系统及方法

模拟工具控制器信令测试工具生成用户信息

BIOS设定服务方法、计算机设备及计算机可读取储存介质

人工智能引擎计算机可读取储存介质自然语言系统配置信息计算机设备

面向地图投影的三维教学方法、装置和系统

手持交互设备三维模型三维教学系统追踪设备按键

基于语义合成和文本向量化的数据湖元数据治理方法

站点导航

APP 下载