摘要
一种基于大语言模型的近实时风险语料生成方法,属于计算机程序技术领域。数据收集步骤:在T日从网上收集T‑1日的相关数据,包含T‑1日的热点和敏感数据,实体抽取步骤:在T日处理数据收集步骤T日入库的数据,使用大语言模型从原始语料提取出文本中的人名、地名、时间、事件名、组织名、作品名、网站媒体、标志物、口号字段,多个词并按照xxx||yyy组合,数据生成步骤:在T日处理实体抽取步骤T日入库的数据,将数据按风险类型分组合并,抽取若干词,按照不同的sts_type句式类型、task_type任务类型,使用大语言模型生成风险语料,人审标注步骤:对数据生成步骤T日入库的数据,进行人审标注,定期统计风险语料的数量。
技术关键词
语料生成方法
大语言模型
风险
事件名
数据
文本
实体
计算机程序技术
关键词
字段
标志物
媒体
周期性
组织
接口
热点
爬虫
字符
逻辑
标签