摘要
本发明公开了一种基于大模型的提升数据质量的治理方法,包括以下步骤:a、接收多源异构输入数据流,解析文本、图像、时序信号模态特征,通过预训练的多模态编码器生成混合特征向量;b、基于大语言模型生成数据清洗规则,动态执行缺失值插补和异常值检测;c、对敏感字段应用差分隐私策略,根据数据分级标签选择k‑匿名或同态加密;d、执行预处理质量验证,包括计算完整性得分和一致性得分,当综合质量指标低于动态阈值时更新清洗规则。本发明通过预处理质量验证与增量学习机制,模型响应速度提升3倍,延迟<1分钟,误判率降低42%;跨模态对比学习使多模态任务F1‑score提升17%‑23%。
技术关键词
清洗规则
BERT模型
大语言模型
差分隐私
模态特征
文本
孤立森林算法
跨模态
编码器
加密
动态
视觉特征
数据分布
实体
自然语言
图像
异构
字段
节点