摘要
本发明涉及调查数据处理方法领域,具体涉及基于大数据资源的多行业调研文本数据分析模型及方法,包括:S1针对获取到的开放题数据进行数据清洗,按照调研行业、研究方向和调研问题对开放题进行多级分类,并基于预设模型进行多级的逐级结合训练;S2利用聚类方法对任一类开放题的所有回答进行无监督的分类,选择评价指标高的数据,建立每个开放题的聚类标签,对聚类标签进行判断、命名得到分类标签;S3基于ReBERTa微调的标准encode模型抽取特征,并在训练任务里面构建多任务的分类任务,适配各个不同的研究领域和方向;S4输出匹配后的标签信息。本发明能够提高开放题的回答信息处理的速度和效率,并降低因为人为处理带来的工作量。
技术关键词
文本数据分析方法
大数据
数据分析模型
标签
调查数据处理
抽取特征
资源
聚类方法
多任务
无监督
聚类算法
信息处理
编码
指标
工作量
色彩
系统为您推荐了相关专利信息
数据处理器
标签管理方法
数据读写方法
队列
状态监测模块
设备监控终端
数据采集模块
管理系统
知识图谱数据库
故障诊断模块