一种大模型语料处理方法及系统

AITNT
正文
推荐专利
一种大模型语料处理方法及系统
申请号:CN202411443155
申请日期:2024-10-16
公开号:CN119539074A
公开日期:2025-02-28
类型:发明专利
摘要
本发明涉及一种大模型语料处理方法及系统,包括:对语言数据进行数据采集;对采集的数据进行价值数据识别,保留有价值的区域;将保留的区域抽取为段落文档的形式;将段落文档转换为统一的文本格式,并进行无效内容删除、格式和语法错误纠正、内容价值筛选和格式统一处理;对数据进行去重处理;对去重处理后的数据进行整体质检以优化处理过程;通过深度学习模型对数据进行特征提取,得到语料特征;根据语料特征,通过语义理解模型提取出语义信息,用于大模型的训练和应用;根据大模型的训练和应用的结果和反馈信息,进行数据处理过程的优化。与现有技术相比,本发明实现了对各类大模型训练数据的统一处理,提高了数据处理的准确性和效率。
技术关键词
语义理解模型 数据 深度学习模型 格式 去重算法 特征提取模块 语义角色标注 命名实体识别 电子书 爬虫程序 文章 广告 自然语言 识别模块 规模 编码 表格 关系
系统为您推荐了相关专利信息
1
基于随机最大后验变分推断的地下水渗流预测方法及系统
地下水渗流模型 参数 推断方法 数学模型 稳态
2
排水系统预测数据的确定方法、装置、设备及存储介质
排水系统设计 神经网络模型 模拟模型 数据 节点
3
水轮发电机超高频局放震荡特性监测方法及装置
特性监测方法 水轮发电机 电信号 单脉冲 特性监测装置
4
大坝表面裂缝检测与管理系统、方法及电子设备
大坝表面裂缝检测 影像 Retinex理论 图像处理模块 无人机相机
5
一种智能建筑管理系统、方法、电子设备及存储介质
智能建筑管理方法 建筑物模型 智能建筑管理系统 网格 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号