一种基于大语言模型的近实时风险语料生成方法

正文

推荐专利

一种基于大语言模型的近实时风险语料生成方法

申请号：CN202510663614

申请日期：2025-05-22

公开号：CN120822586A

公开日期：2025-10-21

类型：发明专利

摘要

一种基于大语言模型的近实时风险语料生成方法，属于计算机程序技术领域。数据收集步骤：在T日从网上收集T‑1日的相关数据，包含T‑1日的热点和敏感数据，实体抽取步骤：在T日处理数据收集步骤T日入库的数据，使用大语言模型从原始语料提取出文本中的人名、地名、时间、事件名、组织名、作品名、网站媒体、标志物、口号字段，多个词并按照xxx||yyy组合，数据生成步骤：在T日处理实体抽取步骤T日入库的数据，将数据按风险类型分组合并，抽取若干词，按照不同的sts_type句式类型、task_type任务类型，使用大语言模型生成风险语料，人审标注步骤：对数据生成步骤T日入库的数据，进行人审标注，定期统计风险语料的数量。

技术关键词

语料生成方法大语言模型风险事件名数据文本实体计算机程序技术关键词字段标志物媒体周期性组织接口热点爬虫字符逻辑标签

一种基于大语言模型的近实时风险语料生成方法

站点导航

APP 下载