基于未标注数据的词嵌入模型训练方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202510101642

申请日期：2025-01-22

公开号：CN120067293A

公开日期：2025-05-30

类型：发明专利

摘要

本申请公开了一种基于未标注数据的词嵌入模型训练方法、装置、设备和存储介质，涉及自然语言处理技术领域，所述基于未标注数据的词嵌入模型训练方法包括获取初始数据和初始词嵌入模型；根据所述初始词嵌入模型对所述初始数据进行向量表示，得到向量数据库；基于所述向量数据库进行相似度筛选，得到目标样本数据；通过所述目标样本数据对所述初始词嵌入模型进行训练，得到目标词嵌入模型。本申请通过从未标注数据中有效选择具有挑战性的难负例进行训练，显著提升了词嵌入模型的学习效果。它减少了对人工标注数据的依赖，降低了数据标注成本，同时增强了模型对复杂样本的学习能力和对未知数据的适应性，从而提高了模型的泛化性能和鲁棒性。

技术关键词

词嵌入模型模型训练方法数据样本排序模型模型训练设备答案模型训练装置自然语言处理器可读存储介质模块存储器鲁棒性分词计算机关系

基于未标注数据的词嵌入模型训练方法、装置、设备和存储介质

站点导航

APP 下载