摘要
本发明提供一种用于图书出版行业的数据治理方法,涉及数据治理技术领域,解决当前图书出版行业存在数据口径不一致、数据不准确和数据重复等情况,图书数据缺乏统一数据标准的问题。方法为:对历史图书数据进行分析,依据分析得到的图书子数据建立图书子数据表;对第一图书子数据进行重复记录检测,将重复记录检测得到的重复图书子数据进行合并,根据合并后的图书子数据获得原始字段;将原始字段分别映射为对应的标准字段,并通过原始字段以及对应的标准字段建立标准字段表;将各标准字段表合并为图书数据集并输入至深度学习模型进行训练,将实时图书数据转换为标准图书数据,本发明实现对图书出版行业的数据治理,保证数据使用的标准化。
技术关键词
图书
数据治理方法
字段
深度学习模型
数据治理技术
数据管理平台
书籍
文本
标记
词语
号码
日期
符号
系统为您推荐了相关专利信息
专家推荐系统
BERT模型
生成企业
专家推荐方法
分类器
髋关节置换手术
预警模型
预警系统
预警模块
实时信息
智能预警系统
特征提取模块
传感
数据采集模型
数字孪生体