摘要
本发明公开了基于对话式大语言模型的文本数据构建方法和介质,方法包括包括根据自然语言处理的需求,获取多样式文本数据作为第一数据,第一数据形成第一数据集;对所有第一数据进行预处理以形成第二数据,预处理后的第二数据形成第二数据集;将每个第二数据插入设定好的清洗prompt中,将清洗prompt输入大语言模型,以对第二数据进行指令评估和赋予标签;对标签进行过滤以过滤掉部分第二数据,并形成过滤后的第三数据集;将第三数据集中的第二数据插入设定好的转换prompt中,将转换prompt输入大语言模型,大语言模型将第二数据转换为满足自然语言处理需求的文本数据。无需人工处理,提高了效率、降低了成本,并减少了对专业知识的依赖。
技术关键词
数据构建方法
大语言模型
文本
自然语言
标签
风格
可读存储介质
指令
程序
列表
规模
计算机
处理器
系统为您推荐了相关专利信息
音频特征
文本
情感识别方法
标签
多模态情感识别
蛋白质表达
T7RNA聚合酶
模型小鼠
玻璃体
质粒
知识库构建方法
视频画面数据
图像画面数据
文本
电力
特征选择方法
噪声标签
矩阵
梯度下降算法
医疗数据处理技术
自动驾驶系统
数据安全监测
智能网联汽车
云端
平台