摘要
本申请涉及自然语言处理技术领域,具体涉及基于大数据处理的数字大脑模型训练数据清洗方法,该方法包括:构建违禁词词表;通过分词工具对文本数据进行分词,获取每条语句的词语集合;基于违禁词词表随机生成源文本,分别构建词语级别、语句级别的匹配矩阵;针对不同级别的匹配矩阵,利用不同类型的注意力机制提取不同交互级别的文本特征,得到文本匹配模型;基于匹配结果对文本数据进行数据清洗。本申请旨在有效解决传统词向量匹配在处理供应链中各个环节和不同主题的文本数据清洗时面临的挑战,提升数字大脑模型训练数据的清洗效果。
技术关键词
训练数据清洗方法
文本
词语
语句
矩阵
多头注意力机制
皮尔逊相关系数
分词
BERT模型
语义
参数
频率
自然语言
样本
编码
图像
主题
系统为您推荐了相关专利信息
电池状态数据
卡尔曼滤波
电池荷电状态估计
优化LSTM模型
协方差矩阵
关节力矩
蜂群算法
轨迹
动力学参数辨识
六关节机器人