摘要
本发明涉及数字人技术领域,具体公开了一种基于大数据的数字人语言训练方法及系统,所述的方法包括以下步骤:S1:获取训练文本,获取训练文本的文本向量,对文本向量进行聚类得到聚类簇;S2:获取聚类簇中文本向量的数量,确定聚类簇是否为削减簇;对削减簇中的文本向量进行排序得到第一排序,去除第一排序中的若干文本向量,获取新的聚类簇;S3:记录第一簇被标记为第二簇的总次数,当总次数超过总次数阈值时,标记为异常簇;删除异常簇的第一排序中首位的文本向量,直到异常簇不再被判定为异常簇;S4:基于目标簇生成数据集,对数字人进行语言训练。本发明提高了数字人语言训练的可靠性和鲁棒性。
技术关键词
语言训练方法
文本
大数据
DBSCAN算法
生成数据集
语言训练系统
标记
聚类
分析模块
鲁棒性
系统为您推荐了相关专利信息
营销管理系统
车辆维修保养
数据存储子系统
数据采集子系统
大数据
预训练语言模型
林业
主题
持续学习方法
信息提取方法
试车平台
随机森林模型
航空发动机传感器
试车方法
训练深度学习模型
智能分析模型
标定方法
重构模型
识别方法
电子设备