摘要
本发明涉及一种多语言数据清洗方法、系统、设备及介质,该方法包括:采集多语言数据;对多语言数据进行标准化预处理,得到第一数据;对第一数据进行基于专家规则的过滤处理,得到第二数据;采用基于多语言大模型的自动化数据质量评估模型对第二数据进行质量评估,保留保留语言标签准确率高于设定阈值、困惑度低于设定阈值且训练后模型效果提升的数据,得到最终的多语言数据清洗结果。与现有技术相比,本发明提升了多语言数据的清洗质量和清洗效率。
技术关键词
数据清洗方法
多语言
大语言模型
字符识别
标签
数据采集模块
过滤模块
语句
处理器
可读存储介质
存储器
表达式
互联网
电子设备
程序
格式
计算机
系统为您推荐了相关专利信息
人形机器人动作
意图识别
生成方法
天牛须搜索算法
多模态深度神经网络
大语言模型
表情生成方法
表情生成系统
文本
动画
深度学习算法
语音情绪识别
大语言模型
数据采集单元
意图识别模型
玉米
遥感影像数据
光学遥感数据
网络
特征学习模型