摘要
本发明公开了一种数据收集方法、装置、设备及介质,涉及计算机技术领域,应用于智能体,包括:利用少样本学习算法确定数据收集需求对应的目标主题领域和所需数据量;从种子词语管理器中确定与目标主题领域对应的初始种子词语列表,利用目标预训练模型对初始种子词语列表进行扩充;基于最少到最多提示算法鉴别扩充后种子词语列表中各目标种子词语的词性,利用与目标种子词语的词性对应的提示信息生成模板生成与目标种子词语对应的提示信息;基于提示信息并利用网络检索方式获取与所需数据量对应的目标数据集,其中,采用思维链条算法将当前步骤的输出作为下一步骤的输入。思维链条算法形成一个连贯的思维过程,并使得收集的数据可以保质保量。
技术关键词
数据收集方法
词语
种子
预训练模型
生成模板
主题
学习算法
链条
列表
管理器
数据收集装置
样本
可读存储介质
存储计算机程序
扩充模块
指令
网络
系统为您推荐了相关专利信息
问答方法
知识点
预训练模型
人工智能问答系统
学生
算法模型训练
机器可读程序
训练集
政务服务技术
样本