摘要
本申请提供了文化大数据采集、清洗与标注的处理方法、系统和介质。该方法包括:对待处理文化大数据进行类型划分,并采取对应的采集技术进行采集,获得对应的目标文化大数据子集,提取各目标文化大数据子集对应的数据采集评估指标,并评估对应采集技术的适配度,对目标文化大数据子集采取对应的清洗技术进行处理,获得对应的清洗后数据子集,提取各清洗后数据子集对应的数据清洗评估指标,并评估对应清洗技术的适用度,对清洗后数据子集采取对应的标注技术进行处理,获得对应的标注后数据子集,提取各标注后数据子集对应的数据标注评估指标,并评估对应标注技术的契合度,从而实现对文化大数据进行采集、清洗与标注智能处理的技术。
技术关键词
大数据
标注技术
能力评估模型
指标
视频识别技术
网络爬虫技术
数据缺失值
语音识别技术
图像识别技术
半监督学习
无监督学习
可读存储介质
覆盖率
文本
音频
程序