一种基于不平衡数据集的文本合规检测方法

AITNT
正文
推荐专利
一种基于不平衡数据集的文本合规检测方法
申请号:CN202510141591
申请日期:2025-02-08
公开号:CN120144767A
公开日期:2025-06-13
类型:发明专利
摘要
本发明提供一种基于不平衡数据集的文本合规检测方法,属于文本处理技术领域,包括:对大模型数据集进行采集和预处理,确定第一数据,并确定词汇表;基于词汇表对第一数据进行编码和降维处理,确定第一数据中每条第一语句的第二编码向量;确定第一数据中每两个第一语句的子词汇向量相似值以及综合相似值,并对第一数据进行分类确定第一类别、第一类别中每个类别的第一类别数据以及第二类别数据;基于第二类别数据构建分类模型,基于分类模型对大模型数据进行处理。可以提升了文本处理的速度和准确率,加强大模型服务提供者在数据训练和内容生成过程中的合规性监管的同时,保障信息传播的安全性和合规性,提高大模型的适应性和泛化能力。
技术关键词
合规检测方法 语句 覆盖率 编码向量 构建分类模型 合规性 序列 协方差矩阵 文本处理技术 数据分类 索引 同义词 正则化参数 数据格式 特征值
系统为您推荐了相关专利信息
1
云产品的指标查询方法、装置、设备、存储介质及产品
指标查询方法 数据 资源 计算机程序产品 语句
2
一种基于图知识大模型的科研成果转化方法
转化方法 编码向量 多头注意力机制 数据 解析器
3
一种基于非接触心电的信号质量评估系统及方法
心电信号特征提取 心电信号采集模块 心电信号预处理 评估系统 构建分类模型
4
一种基于AIGC大模型的智能互动语音讲解系统
语音讲解系统 覆盖率 有效性 词语 意图识别
5
基于上下文的深度邮件密码强度度量方法
Word2Vec模型 字符 长短期记忆网络 密码解码器 度量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号