摘要
本发明属于舆情数据处理技术领域,尤其涉及一种舆情数据集的生成方法和生成系统。舆情数据集的生成方法,包括:将获取的新闻送入预处理模块中进行预处理后,得到新闻文本并送入截取模块中;截取模块内根据企业实体对新闻文本进行截取,得到当前新闻文本中所有企业实体的企业信息集合后送入特征标注模块;特征标注模块分别基于大语言模型和文本分类模型对企业实体进行特征标注,并根据两种模型的标注结果来生成舆情数据;特征标注模块将舆情数据送入舆情数据输出模块中;舆情数据输出模块根据下游模型的训练目标来筛选对应的舆情数据构建舆情数据集并输出。本发明能够高效地生成高质量的舆情数据集,提升被训练模型的舆情处理效果。
技术关键词
文本分类模型
企业
生成方法
数据输出模块
实体
大语言模型
生成系统
副本
舆情数据处理技术
正确率
坐标
标签
训练集
编程
符号
格式
正面
系统为您推荐了相关专利信息
发电控制系统
蒸汽余热
数字孪生模型
透平机
透平发电机
水利管道
调控装置
中央处理系统
管理方法
数字孪生模型
工业生产线
识别方法
注意力机制
细粒度特征
场景
网格生成方法
泊松方程
控制线
简化算法
加密算法
无线温度传感器
电源插脚
无线通讯模块
传输模块
射频开关芯片