基于大数据资源的多行业调研文本数据分析模型及方法

正文

推荐专利

申请号：CN202510531554

申请日期：2025-04-25

公开号：CN120448542A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及调查数据处理方法领域，具体涉及基于大数据资源的多行业调研文本数据分析模型及方法，包括：S1针对获取到的开放题数据进行数据清洗，按照调研行业、研究方向和调研问题对开放题进行多级分类，并基于预设模型进行多级的逐级结合训练；S2利用聚类方法对任一类开放题的所有回答进行无监督的分类，选择评价指标高的数据，建立每个开放题的聚类标签，对聚类标签进行判断、命名得到分类标签；S3基于ReBERTa微调的标准encode模型抽取特征，并在训练任务里面构建多任务的分类任务，适配各个不同的研究领域和方向；S4输出匹配后的标签信息。本发明能够提高开放题的回答信息处理的速度和效率，并降低因为人为处理带来的工作量。

技术关键词

文本数据分析方法大数据数据分析模型标签调查数据处理抽取特征资源聚类方法多任务无监督聚类算法信息处理编码指标工作量色彩

系统为您推荐了相关专利信息

基于无障碍服务的页面信息获取方法、系统、设备及介质

页面信息获取方法节点字符序列关键字

标签管理方法、数据读写方法、系统、设备、介质和产品

数据处理器标签管理方法数据读写方法队列状态监测模块

一种用于养老服务的助餐管理系统及助餐机

设备监控终端数据采集模块管理系统知识图谱数据库故障诊断模块

一种用于标签的磨损缺陷检测方法及系统

像素点标签缺陷检测方法样本重构模型

一种基于因果推断的图像虚假相关去除方法

图片标签二分类模型计算机可读指令效应

基于大数据资源的多行业调研文本数据分析模型及方法

站点导航

APP 下载