摘要
本发明公开了一种基于人机协同的中文网络暴力事件数据集构建方法,包括1)从多个中文社交媒体平台提取与网络暴力事件相关的评论数据,确保数据多样性和复杂性;2)采用基于释义、基于思维链和基于多代理的三种网络暴力检测方法生成伪标签和相应的解释内容,并通过集成方法结合这三种检测方法的结果;3)由多名中文母语者根据生成的伪标签和解释进行人工标注,确保标注的准确性;4)根据标注结果构建基于事件的中文网络暴力检测数据集CHNCI,并统计数据集的基本信息。本发明通过结合机器生成伪标签与人工标注的方式,构建一个基于事件的中文网络暴力检测数据集,显著降低了数据标注成本,同时提高了数据集的覆盖范围和质量。
技术关键词
数据集构建方法
人机协同
标签
大语言模型
社交媒体平台
文本
SimHash算法
支持多维度检索
训练分类器
分布式网络爬虫
集成方法
交互式界面
样本
动态
语义
模板
逻辑
标注工具
系统为您推荐了相关专利信息
弱分类器
标签
生成分类模型
生成样本数据
强分类器
车辆传感器数据
语义点云
语义地图构建
关键帧
定位测量仪
数据集构建方法
识别模块
语种识别
实体
语义特征