摘要
本发明提供一种基于大模型的冗余物料数据清洗系统,属于工业智能与数据治理技术领域,本发明利用预训练大语言模型的深度语义理解能力,实现端到端的语义清洗。它将物料描述转化为高维语义向量,在统一向量空间中精准计算语义相似度,超越字面差异识别本质相同的物料,并通过智能聚类自动归并冗余项。该方法不仅能深度捕捉核心属性间的语义关联、有效忽略噪声,还具备融合结构化属性进行更鲁棒判断的潜力,显著提升清洗精度与效率,克服传统流水线方法的固有局限。
技术关键词
数据清洗系统
子模块
冗余
统一语义理解
蒙特卡洛树搜索
时空注意力机制
在线增量学习
异构信息网络
数据治理技术
知识蒸馏技术
预训练语言模型
决策
流水线方法
多粒度特征
噪声模式
微调技术
清洗策略
噪声识别
系统为您推荐了相关专利信息
预测控制模型
柔性互联系统
子模块电容电压
互联控制方法
环流
换流阀子模块
模块供电系统
采集通讯模块
信号接口单元
监测系统