摘要
本发明公开了一种基于熵理论及情感分析的文本数据置信评估方法。首先构建与目标群体相关的关键词集合,利用关键词集合从训练集中筛选含有关键词的文本数据,或与目标群体密切相关的文本数据。然后通过情感分析模型对文本数据进行情感分类,统计不同情感类别的文本数据数量,计算各类别的概率。然后基于信息熵的计算方式,计算文本数据集对目标群体的情感偏向及偏向程度。该方法能够量化文本数据集中针对特定目标群体的情感分布不均衡性,可以使用该指导大模型的训练与优化,提升数据治理和算法公平性,且具有良好的扩展性和推广前景。
技术关键词
情感分析模型
情感类别
关键词
文本情感分类
标签
信息熵理论
模型训练方法
训练集数据
语义
职业
符号
指标
标记
标识
算法
社会
系统为您推荐了相关专利信息
数字化方法
图像增强
多维索引结构
Wiener滤波器
文本