大模型训练数据的自然语言类型标注方法、装置、设备及介质

正文

推荐专利

申请号：CN202510518975

申请日期：2025-04-24

公开号：CN120372359A

公开日期：2025-07-25

类型：发明专利

摘要

本申请公开了大模型训练数据的自然语言类型标注方法、装置、设备及介质，涉及自然语言处理技术领域，包括：利用Spark的目标应用编程接口对待标注训练数据进行预处理，以将得到的处理后数据保存至本地；基于所述目标应用编程接口从本地读取所述处理后数据，并对所述处理后数据进行分片，以将得到的分片后数据分发至Spark集群中的各个节点；通过所述各个节点上的FastText模型并行对所述分片后数据进行语言检测，以得到相应的初步标注结果，并利用所述Spark对所述初步标注结果进行优化，以得到优化后的目标标注结果。由此，可以解决在处理大规模数据时，自然语言类型标注过程中存在效率低下和准确性不足的问题。

技术关键词

标注方法自然语言分片节点编程机器学习算法接口集群文本停用词表标注装置数据校正可读存储介质规模处理器电子设备模块

系统为您推荐了相关专利信息

一种卷烟品规市场状态预警方法及模型

状态预警方法随机森林卷烟产品参数指标

基于增强提示的可控回复生成方法、装置及存储介质

回复生成方法多轮对话文本大语言模型非暂态计算机可读存储介质

基于分岔失稳算法的岩土稳定性监测方法、设备和系统

状态监测装置稳定性监测方法传感装置节点岩土材料

电力技术标准知识问答大模型训练数据构造方法及装置

数据构造方法多任务电力文本特征向量图像特征向量

一种基于知识图谱的通信节点通联性分析方法

通信节点性分析方法副本广度优先搜索算法关系

大模型训练数据的自然语言类型标注方法、装置、设备及介质

站点导航

APP 下载