摘要
本发明涉及一种在线智能互动问答系统的预训练方法、系统和设备,包括:数据收集:构建一个多元数据收集机制,采集各大网站平台的数据,形成数据流;数据预处理:识别和清洗数据流中的广告内容,去除无关信息;数据清洗:对于数据流中来自不同站点的数据分别贴上对应的标签,同时去除数据流中质量不好的部分,按标签的类型进行整合,形成多个数据集;量化分析:对数据集分别进行计算和评估偏差指标,以识别和去除数据集中的不一致的文本;偏见检测和校对:利用多个数据集训练分类器,寻找最优的分类阈值并输出在原始数据集上得到预测结果,以识别和去除可能带有偏见的文本。本发明通过精细入微的数据去偏见处理,确保数据分析的公正性和准确性。
技术关键词
互动问答系统
分类阈值
数据收集单元
数据收集机制
训练分类器
在线
分析单元
训练系统
清洗单元
互联网大数据
标签
文本
指标
人机交互模块
可读存储介质
偏差