摘要
本申请涉及数据泛化技术领域,具体涉及用于经济大数据中文本数据的泛化处理保护方法,该方法包括:获取文本数据;利用文本属性向量训练孤立森林,基于特征向量之间的类内差异确定特征向量的类内偏差值;基于类内偏差值的分布离散程度确定聚类簇的内容复杂度,结合聚类簇内特征向量的相似程度确定聚类簇之间的内容可转换度;基于内容可转换度确定孤立树的投票权重,得到文本属性向量的异常得分;基于异常得分筛选需要泛化处理的文本数据,得到泛化处理结果。本申请通过对同类内容下文本数据内容差异以及可互换组合出现在不同数据源经济大数据中特点的分析,优化孤立森林算法,提高泛化处理的效果,降低经济大数据中文本数据被攻击的风险。
技术关键词
保护方法
文本
大数据
节点
森林模型
样本
孤立森林算法
复杂度
匿名算法
分布方差
生成树
阈值算法
数据聚类算法
Prim算法
偏差
成分分析法
代表
特征值
系统为您推荐了相关专利信息
大语言模型
运维知识库
区块链技术
前端系统
区块链网络节点
语义特征
偏好特征
数据搜索方法
商品特征信息
关键词
分布式电源
小波变换系数
模拟检测平台
测试主机
滑动时窗
自动化管理系统
智能水务
污水处理工艺
系统健康状态评估
水务系统