摘要
本发明涉及一种基于粒球聚类的文本翻译方法和系统,包括:采用爬虫技术定期获取文本数据集并进行预处理;利用分词工具对获取的文本数据进行分词处理,并利用分词处理得到的词对词库进行更新;基于预训练的大语言模型对词库中的词进行编码得到词的词向量表示;根据词库中词的词向量表示利用粒球聚类算法自适应地生成词库中词的同义词集;利用训练文本中词的同义词对其进行替换生成训练文本的对抗样本;根据训练文本和对抗样本构建训练集,基于构建的训练集对基于大语言模型的文本翻译模型进行训练;通过训练好的文本翻译模型对待翻译的文本进行翻译,发明能够提高翻译的准确性和可靠性。
技术关键词
文本翻译方法
文本翻译模型
球粒
同义词
文本翻译系统
生成词库
分词
构建训练集
遗传算法
大语言模型
爬虫技术
存储计算机程序
中文文本
存储器
语义
样本
数据
处理器