一种基于人机协同的中文网络暴力事件数据集构建方法

正文

推荐专利

申请号：CN202510217190

申请日期：2025-02-26

公开号：CN120144688A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种基于人机协同的中文网络暴力事件数据集构建方法，包括1）从多个中文社交媒体平台提取与网络暴力事件相关的评论数据，确保数据多样性和复杂性；2）采用基于释义、基于思维链和基于多代理的三种网络暴力检测方法生成伪标签和相应的解释内容，并通过集成方法结合这三种检测方法的结果；3）由多名中文母语者根据生成的伪标签和解释进行人工标注，确保标注的准确性；4）根据标注结果构建基于事件的中文网络暴力检测数据集CHNCI，并统计数据集的基本信息。本发明通过结合机器生成伪标签与人工标注的方式，构建一个基于事件的中文网络暴力检测数据集，显著降低了数据标注成本，同时提高了数据集的覆盖范围和质量。

技术关键词

数据集构建方法人机协同标签大语言模型社交媒体平台文本 SimHash算法支持多维度检索训练分类器分布式网络爬虫集成方法交互式界面样本动态语义模板逻辑标注工具

系统为您推荐了相关专利信息

文本分析模型的训练方法和装置

文本分析模型标签样本数值问答模型

一种设备测试数据计算方法、系统、存储介质及电子设备

弱分类器标签生成分类模型生成样本数据强分类器

一种基于越野场景的激光点云建图与匹配系统及方法

车辆传感器数据语义点云语义地图构建关键帧定位测量仪

面型指标测量模型构造方法、发育情况评估方法及系统

模型构造方法关键点共线关系面部软组织

一种基于对比学习的大语言数据集构建方法

数据集构建方法识别模块语种识别实体语义特征

一种基于人机协同的中文网络暴力事件数据集构建方法

站点导航

APP 下载