一种基于人机协同的中文网络暴力事件数据集构建方法

AITNT
正文
推荐专利
一种基于人机协同的中文网络暴力事件数据集构建方法
申请号:CN202510217190
申请日期:2025-02-26
公开号:CN120144688A
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了一种基于人机协同的中文网络暴力事件数据集构建方法,包括1)从多个中文社交媒体平台提取与网络暴力事件相关的评论数据,确保数据多样性和复杂性;2)采用基于释义、基于思维链和基于多代理的三种网络暴力检测方法生成伪标签和相应的解释内容,并通过集成方法结合这三种检测方法的结果;3)由多名中文母语者根据生成的伪标签和解释进行人工标注,确保标注的准确性;4)根据标注结果构建基于事件的中文网络暴力检测数据集CHNCI,并统计数据集的基本信息。本发明通过结合机器生成伪标签与人工标注的方式,构建一个基于事件的中文网络暴力检测数据集,显著降低了数据标注成本,同时提高了数据集的覆盖范围和质量。
技术关键词
数据集构建方法 人机协同 标签 大语言模型 社交媒体平台 文本 SimHash算法 支持多维度检索 训练分类器 分布式网络爬虫 集成方法 交互式界面 样本 动态 语义 模板 逻辑 标注工具
系统为您推荐了相关专利信息
1
文本分析模型的训练方法和装置
文本分析模型 标签 样本 数值 问答模型
2
一种设备测试数据计算方法、系统、存储介质及电子设备
弱分类器 标签 生成分类模型 生成样本数据 强分类器
3
一种基于越野场景的激光点云建图与匹配系统及方法
车辆传感器数据 语义点云 语义地图构建 关键帧 定位测量仪
4
面型指标测量模型构造方法、发育情况评估方法及系统
模型构造方法 关键点 共线 关系 面部软组织
5
一种基于对比学习的大语言数据集构建方法
数据集构建方法 识别模块 语种识别 实体 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号