多语言数据清洗方法、系统、设备及介质

AITNT
正文
推荐专利
多语言数据清洗方法、系统、设备及介质
申请号:CN202411626170
申请日期:2024-11-14
公开号:CN119807608A
公开日期:2025-04-11
类型:发明专利
摘要
本发明涉及一种多语言数据清洗方法、系统、设备及介质,该方法包括:采集多语言数据;对多语言数据进行标准化预处理,得到第一数据;对第一数据进行基于专家规则的过滤处理,得到第二数据;采用基于多语言大模型的自动化数据质量评估模型对第二数据进行质量评估,保留保留语言标签准确率高于设定阈值、困惑度低于设定阈值且训练后模型效果提升的数据,得到最终的多语言数据清洗结果。与现有技术相比,本发明提升了多语言数据的清洗质量和清洗效率。
技术关键词
数据清洗方法 多语言 大语言模型 字符识别 标签 数据采集模块 过滤模块 语句 处理器 可读存储介质 存储器 表达式 互联网 电子设备 程序 格式 计算机
系统为您推荐了相关专利信息
1
机器人流泪控制方法及用于机器人的微流体流泪执行装置
执行装置 传感 多模态 编码 储液装置
2
一种基于认知反馈机制的人形机器人动作生成方法
人形机器人动作 意图识别 生成方法 天牛须搜索算法 多模态深度神经网络
3
一种基于LLM的三维数字人表情生成方法及系统
大语言模型 表情生成方法 表情生成系统 文本 动画
4
虚拟数字人共情能力增强方法、装置、设备、介质及产品
深度学习算法 语音情绪识别 大语言模型 数据采集单元 意图识别模型
5
一种基于改进U-Net网络的玉米干旱状态提取方法
玉米 遥感影像数据 光学遥感数据 网络 特征学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号