摘要
本发明提供了一种文本数据的公平表示学习方法。该方法包括:将收集的文本数据转换成词表,利用词表构建由离散向量组成的词表嵌入矩阵;利用BERT将词表嵌入矩阵转化为嵌入表示向量;根据嵌入表示向量度量受保护属性和类簇结构对原始文本数据信息编码的影响,基于非渐进失真度量函数的度量结果设计损失函数,利用损失函数训练深度神经网络,构建公平表征空间模型;将待处理的文本数据清洗后输入到公平表征空间模型,公平表征空间模型输出待处理的文本数据的公平表示。本发明方法确保数据在转换到嵌入空间时能够保持其原始信息的完整性和准确性,提高模型的泛化能力和鲁棒性。能够避免由于数据偏见导致的不公平现象,增强用户对模型的信任和接受度。
技术关键词
训练深度神经网络
受保护
文本
信息编码
深度神经网络模型
度量
矩阵
学习方法
样本
代表
数据标签
数据编码
定义
语义
鲁棒性
编码器
误差
系统为您推荐了相关专利信息
矩阵
关键帧
全局特征提取
局部特征提取
图像编码器