基于大数据处理的数字大脑模型训练数据清洗方法

AITNT
正文
推荐专利
基于大数据处理的数字大脑模型训练数据清洗方法
申请号:CN202510813165
申请日期:2025-06-18
公开号:CN120316417B
公开日期:2025-09-26
类型:发明专利
摘要
本申请涉及自然语言处理技术领域,具体涉及基于大数据处理的数字大脑模型训练数据清洗方法,该方法包括:构建违禁词词表;通过分词工具对文本数据进行分词,获取每条语句的词语集合;基于违禁词词表随机生成源文本,分别构建词语级别、语句级别的匹配矩阵;针对不同级别的匹配矩阵,利用不同类型的注意力机制提取不同交互级别的文本特征,得到文本匹配模型;基于匹配结果对文本数据进行数据清洗。本申请旨在有效解决传统词向量匹配在处理供应链中各个环节和不同主题的文本数据清洗时面临的挑战,提升数字大脑模型训练数据的清洗效果。
技术关键词
训练数据清洗方法 文本 词语 语句 矩阵 多头注意力机制 皮尔逊相关系数 分词 BERT模型 语义 参数 频率 自然语言 样本 编码 图像 主题
系统为您推荐了相关专利信息
1
多模态场景自适应提示的开放词汇目标检测方法及装置
多模态 场景 视觉特征 低秩分解方法 文本
2
一种基于社交网络增强检索的汽车金融风控问答方法
问答方法 知识图谱构建 关系 社交 三元组
3
一种大场景高速的深度计算方法
深度计算方法 深度相机 双目相机 矩阵 场景
4
基于膨胀力的车云融合电池荷电状态估计方法及估计系统
电池状态数据 卡尔曼滤波 电池荷电状态估计 优化LSTM模型 协方差矩阵
5
一种基于IABC-ANN神经网络的测量机器人动力学参数辨识方法
关节力矩 蜂群算法 轨迹 动力学参数辨识 六关节机器人
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号