一种大模型语料处理方法及系统

正文

推荐专利

一种大模型语料处理方法及系统

申请号：CN202411443155

申请日期：2024-10-16

公开号：CN119539074A

公开日期：2025-02-28

类型：发明专利

摘要

本发明涉及一种大模型语料处理方法及系统，包括：对语言数据进行数据采集；对采集的数据进行价值数据识别，保留有价值的区域；将保留的区域抽取为段落文档的形式；将段落文档转换为统一的文本格式，并进行无效内容删除、格式和语法错误纠正、内容价值筛选和格式统一处理；对数据进行去重处理；对去重处理后的数据进行整体质检以优化处理过程；通过深度学习模型对数据进行特征提取，得到语料特征；根据语料特征，通过语义理解模型提取出语义信息，用于大模型的训练和应用；根据大模型的训练和应用的结果和反馈信息，进行数据处理过程的优化。与现有技术相比，本发明实现了对各类大模型训练数据的统一处理，提高了数据处理的准确性和效率。

技术关键词

语义理解模型数据深度学习模型格式去重算法特征提取模块语义角色标注命名实体识别电子书爬虫程序文章广告自然语言识别模块规模编码表格关系

系统为您推荐了相关专利信息

基于随机最大后验变分推断的地下水渗流预测方法及系统

地下水渗流模型参数推断方法数学模型稳态

排水系统预测数据的确定方法、装置、设备及存储介质

排水系统设计神经网络模型模拟模型数据节点

水轮发电机超高频局放震荡特性监测方法及装置

特性监测方法水轮发电机电信号单脉冲特性监测装置

大坝表面裂缝检测与管理系统、方法及电子设备

大坝表面裂缝检测影像 Retinex理论图像处理模块无人机相机

一种智能建筑管理系统、方法、电子设备及存储介质

智能建筑管理方法建筑物模型智能建筑管理系统网格节点

一种大模型语料处理方法及系统

站点导航

APP 下载