基于KNN检索增强的文本分类方法及装置、设备、介质

正文

推荐专利

申请号：CN202410816275

申请日期：2024-06-24

公开号：CN118820927A

公开日期：2024-10-22

类型：发明专利

摘要

本申请的实施例揭示了一种基于KNN检索增强的文本分类方法及装置、设备、介质。方法包括：构建函数f(·)，响应于输入的训练集，利用所述函数f(·)将所述训练数据集的文本序列映射到固定长度向量表示形式，将所有文本序列的向量表示和对应的标签存储于训练数据集中；构建文本增强模块，利用所述文本增强模块对所述训练数据集进行增强得到增强后的训练数据集；构建K‑最近邻分类器，利用所述增强后的训练数据集对所述K‑最近邻分类器进行训练，以训练好的K‑最近邻分类器实现文本分类。本发明显著提高了多种深度学习模型(如CNN、LSTM、BERT和RoBERTa)在文本分类任务上的性能，同时无需额外训练即可利用训练数据集信息增强模型的泛化能力和分类准确性。

技术关键词

文本分类方法分类器序列计算机可读指令深度学习模型标签生成向量同义词训练集模拟真实场景文本分类装置邻居数据存储模块控制器存储单元超参数

基于KNN检索增强的文本分类方法及装置、设备、介质

站点导航

APP 下载