一种基于大数据的数字人语言训练方法及系统

正文

推荐专利

申请号：CN202510275565

申请日期：2025-03-10

公开号：CN120216988B

公开日期：2025-12-02

类型：发明专利

摘要

本发明涉及数字人技术领域，具体公开了一种基于大数据的数字人语言训练方法及系统，所述的方法包括以下步骤：S1：获取训练文本，获取训练文本的文本向量，对文本向量进行聚类得到聚类簇；S2：获取聚类簇中文本向量的数量，确定聚类簇是否为削减簇；对削减簇中的文本向量进行排序得到第一排序，去除第一排序中的若干文本向量，获取新的聚类簇；S3：记录第一簇被标记为第二簇的总次数，当总次数超过总次数阈值时，标记为异常簇；删除异常簇的第一排序中首位的文本向量，直到异常簇不再被判定为异常簇；S4：基于目标簇生成数据集，对数字人进行语言训练。本发明提高了数字人语言训练的可靠性和鲁棒性。

技术关键词

语言训练方法文本大数据 DBSCAN算法生成数据集语言训练系统标记聚类分析模块鲁棒性

系统为您推荐了相关专利信息

一种基于大数据的车主权益营销管理系统与平台

营销管理系统车辆维修保养数据存储子系统数据采集子系统大数据

一种基于信息压缩和空间分解的文本语义表征方法及装置

文本语义语句节点投影器

一种基于持续学习的林业预训练语言模型构建方法

预训练语言模型林业主题持续学习方法信息提取方法

一种航空发动机空中环境模拟试车平台系统及方法

试车平台随机森林模型航空发动机传感器试车方法训练深度学习模型

目标标定方法、目标识别方法、电子设备和可读存储介质

智能分析模型标定方法重构模型识别方法电子设备

一种基于大数据的数字人语言训练方法及系统

站点导航

APP 下载