文本分类方法、装置、计算机程序产品和电子设备

AITNT
正文
推荐专利
文本分类方法、装置、计算机程序产品和电子设备
申请号:CN202510024403
申请日期:2025-01-07
公开号:CN119807418A
公开日期:2025-04-11
类型:发明专利
摘要
本申请公开了一种文本分类方法、装置、计算机程序产品和电子设备。涉及大数据领域,该方法包括:从数据源获取原始数据集和无标签数据集;对原始数据集进行探索性数据分析和预处理,得到第一数据集,对无标签数据集的无标签样本召回伪标签,得到第二数据集;合并第一数据集和第二数据集,进行探索性数据分析和预处理,得到训练数据集;将每一条训练样本输入编码器,生成预训练向量表示和知识图谱向量表示;对于每条训练样本,将所述预训练向量表示将预训练和知识图谱向量表示融合,分类得到分类结果。通过本申请,解决了相关技术中训练数据集数量较少,以及数据集中样本的分类准确性低,导致采用训练数据集训练模型时,得到的模型性能较差问题。
技术关键词
知识图谱向量 文本分类方法 标签类别 无标签样本 无标签数据 非易失性计算机可读存储介质 生成知识图谱 编码器 频率 计算机程序产品 序列 文本分类装置 实体识别模型 动态 分词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号