摘要
本申请公开了大模型训练数据的自然语言类型标注方法、装置、设备及介质,涉及自然语言处理技术领域,包括:利用Spark的目标应用编程接口对待标注训练数据进行预处理,以将得到的处理后数据保存至本地;基于所述目标应用编程接口从本地读取所述处理后数据,并对所述处理后数据进行分片,以将得到的分片后数据分发至Spark集群中的各个节点;通过所述各个节点上的FastText模型并行对所述分片后数据进行语言检测,以得到相应的初步标注结果,并利用所述Spark对所述初步标注结果进行优化,以得到优化后的目标标注结果。由此,可以解决在处理大规模数据时,自然语言类型标注过程中存在效率低下和准确性不足的问题。
技术关键词
标注方法
自然语言
分片
节点
编程
机器学习算法
接口
集群
文本
停用词表
标注装置
数据校正
可读存储介质
规模
处理器
电子设备
模块
系统为您推荐了相关专利信息
回复生成方法
多轮对话
文本
大语言模型
非暂态计算机可读存储介质
状态监测装置
稳定性监测方法
传感装置
节点
岩土材料
数据构造方法
多任务
电力
文本特征向量
图像特征向量
通信节点
性分析方法
副本
广度优先搜索算法
关系