大模型训练数据的自然语言类型标注方法、装置、设备及介质

AITNT
正文
推荐专利
大模型训练数据的自然语言类型标注方法、装置、设备及介质
申请号:CN202510518975
申请日期:2025-04-24
公开号:CN120372359A
公开日期:2025-07-25
类型:发明专利
摘要
本申请公开了大模型训练数据的自然语言类型标注方法、装置、设备及介质,涉及自然语言处理技术领域,包括:利用Spark的目标应用编程接口对待标注训练数据进行预处理,以将得到的处理后数据保存至本地;基于所述目标应用编程接口从本地读取所述处理后数据,并对所述处理后数据进行分片,以将得到的分片后数据分发至Spark集群中的各个节点;通过所述各个节点上的FastText模型并行对所述分片后数据进行语言检测,以得到相应的初步标注结果,并利用所述Spark对所述初步标注结果进行优化,以得到优化后的目标标注结果。由此,可以解决在处理大规模数据时,自然语言类型标注过程中存在效率低下和准确性不足的问题。
技术关键词
标注方法 自然语言 分片 节点 编程 机器学习算法 接口 集群 文本 停用词表 标注装置 数据校正 可读存储介质 规模 处理器 电子设备 模块
系统为您推荐了相关专利信息
1
一种卷烟品规市场状态预警方法及模型
状态预警方法 随机森林 卷烟产品 参数 指标
2
基于增强提示的可控回复生成方法、装置及存储介质
回复生成方法 多轮对话 文本 大语言模型 非暂态计算机可读存储介质
3
基于分岔失稳算法的岩土稳定性监测方法、设备和系统
状态监测装置 稳定性监测方法 传感装置 节点 岩土材料
4
电力技术标准知识问答大模型训练数据构造方法及装置
数据构造方法 多任务 电力 文本特征向量 图像特征向量
5
一种基于知识图谱的通信节点通联性分析方法
通信节点 性分析方法 副本 广度优先搜索算法 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号