摘要
本发明涉及数字人技术领域,具体公开了一种基于大数据的数字人语言训练方法及系统,所述的方法包括以下步骤:S1:获取训练文本,获取训练文本的文本向量,对文本向量进行聚类得到聚类簇;S2:获取聚类簇中文本向量的数量,确定聚类簇是否为削减簇;对削减簇中的文本向量进行排序得到第一排序,去除第一排序中的若干文本向量,获取新的聚类簇;S3:记录第一簇被标记为第二簇的总次数,当总次数超过总次数阈值时,标记为异常簇;删除异常簇的第一排序中首位的文本向量,直到异常簇不再被判定为异常簇;S4:基于目标簇生成数据集,对数字人进行语言训练。本发明提高了数字人语言训练的可靠性和鲁棒性。
技术关键词
语言训练方法
文本
大数据
DBSCAN算法
生成数据集
语言训练系统
标记
聚类
分析模块
鲁棒性
系统为您推荐了相关专利信息
BERT模型
深度信息提取
前馈神经网络
海量文本数据
情感分析技术
偏好特征
业务管理系统
公寓
识别模块
信息采集单元
协议适配方法
通用遥控器
协议适配系统
快照
Softmax函数