基于语义合成和文本向量化的数据湖元数据治理方法

AITNT
正文
推荐专利
基于语义合成和文本向量化的数据湖元数据治理方法
申请号:CN202510629028
申请日期:2025-05-16
公开号:CN120181094B
公开日期:2025-08-12
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,具体为基于语义合成和文本向量化的数据湖元数据治理方法,包括以下步骤:基于数据湖中数据源的字段名称、数据类型与描述信息,进行字段内容关键词及相邻上下文词的向量编码,提取字段在差异化上下文的语义共现组,识别语义向量间的距离,判断是否在同类字段分组范围内,得到字段语义归集量。本发明中,通过字段关键词及上下文向量编码提取语义共现关系,构建语义层级结构,提升字段划分精度与抽象能力,结合上下文语义结构判断一致性,调整高频替代路径优化语义结构,融合词向量相似度与结构保留率实现字段归并,提升治理结构连贯性与准确性,增强数据湖中元数据治理的智能性与一致性。
技术关键词
数据治理方法 字段 语义结构 语义向量 层级 代表 文本 日志 语义特征 关键词 融合词向量 结构组 高频率 分层 编码 自然语言 偏差
系统为您推荐了相关专利信息
1
装备数字孪生集成演化模型可信度的快速在线评估方法
在线评估方法 模型误差 装备 参数 评分机制
2
基于大模型的资源推荐方法、训练方法、装置、设备和介质
样本 资源推荐方法 网络 资源推荐模型 文本
3
一种SBC包围测试系统及方法
模拟工具 控制器 信令 测试工具 生成用户信息
4
BIOS设定服务方法、计算机设备及计算机可读取储存介质
人工智能引擎 计算机可读取储存介质 自然语言 系统配置信息 计算机设备
5
面向地图投影的三维教学方法、装置和系统
手持交互设备 三维模型 三维教学系统 追踪设备 按键
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号