摘要
本发明适用于自然语言处理技术领域,具体是一种基于跨语言集成的零样本文本分类方法,该方法包括构建多语言数据集、获取多语言分类文本、文本标签集映射成图像标签集、特征提取、相似度计算和集成预测的步骤,其中,在集成预测的步骤中,本发明运用集成学习的投票策略,选择最终文本分类预测结果并输出。本发明采用了跨语言集成方法,并增加了中文和意大利语的多语言数据集,具备广泛的语言支持和适应能力;本发明采用Multilingual‑CLIP模型,显著提高了零样本文本分类的性能;本发明还采用了投票机制进行预测结果的集成,通过多个模型的预测结果进行投票选择,进一步提高了预测准确性。
技术关键词
文本分类方法
多语言
标签
预测类别
文本编码器
图像编码器
数据
样本
翻译工具
图片
索引
中文文本
变量
集成方法
策略
注意力
英语
图像分割
系统为您推荐了相关专利信息
机电复合传动系统
多任务损失函数
故障检测
时间序列数据分析
数据格式转换方法
虚拟空间构建方法
判定特征
参数
三维建模工具
序列
量子神经网络
手写数字识别方法
量子优化算法
图像
训练集
深度神经网络
皮肤表面粗糙度
检测面部区域
扩展特征向量
定位关键点