基于大数据处理的数字大脑模型训练数据清洗方法

正文

推荐专利

申请号：CN202510813165

申请日期：2025-06-18

公开号：CN120316417B

公开日期：2025-09-26

类型：发明专利

摘要

本申请涉及自然语言处理技术领域，具体涉及基于大数据处理的数字大脑模型训练数据清洗方法，该方法包括：构建违禁词词表；通过分词工具对文本数据进行分词，获取每条语句的词语集合；基于违禁词词表随机生成源文本，分别构建词语级别、语句级别的匹配矩阵；针对不同级别的匹配矩阵，利用不同类型的注意力机制提取不同交互级别的文本特征，得到文本匹配模型；基于匹配结果对文本数据进行数据清洗。本申请旨在有效解决传统词向量匹配在处理供应链中各个环节和不同主题的文本数据清洗时面临的挑战，提升数字大脑模型训练数据的清洗效果。

技术关键词

训练数据清洗方法文本词语语句矩阵多头注意力机制皮尔逊相关系数分词 BERT模型语义参数频率自然语言样本编码图像主题

系统为您推荐了相关专利信息

多模态场景自适应提示的开放词汇目标检测方法及装置

多模态场景视觉特征低秩分解方法文本

一种基于社交网络增强检索的汽车金融风控问答方法

问答方法知识图谱构建关系社交三元组

一种大场景高速的深度计算方法

深度计算方法深度相机双目相机矩阵场景

基于膨胀力的车云融合电池荷电状态估计方法及估计系统

电池状态数据卡尔曼滤波电池荷电状态估计优化LSTM模型协方差矩阵

一种基于IABC-ANN神经网络的测量机器人动力学参数辨识方法

关节力矩蜂群算法轨迹动力学参数辨识六关节机器人

基于大数据处理的数字大脑模型训练数据清洗方法

站点导航

APP 下载