一种基于大数据的数字人语言训练方法及系统

AITNT
正文
推荐专利
一种基于大数据的数字人语言训练方法及系统
申请号:CN202510275565
申请日期:2025-03-10
公开号:CN120216988B
公开日期:2025-12-02
类型:发明专利
摘要
本发明涉及数字人技术领域,具体公开了一种基于大数据的数字人语言训练方法及系统,所述的方法包括以下步骤:S1:获取训练文本,获取训练文本的文本向量,对文本向量进行聚类得到聚类簇;S2:获取聚类簇中文本向量的数量,确定聚类簇是否为削减簇;对削减簇中的文本向量进行排序得到第一排序,去除第一排序中的若干文本向量,获取新的聚类簇;S3:记录第一簇被标记为第二簇的总次数,当总次数超过总次数阈值时,标记为异常簇;删除异常簇的第一排序中首位的文本向量,直到异常簇不再被判定为异常簇;S4:基于目标簇生成数据集,对数字人进行语言训练。本发明提高了数字人语言训练的可靠性和鲁棒性。
技术关键词
语言训练方法 文本 大数据 DBSCAN算法 生成数据集 语言训练系统 标记 聚类 分析模块 鲁棒性
系统为您推荐了相关专利信息
1
一种基于自然语言处理技术的用户体验设计方法
BERT模型 深度信息提取 前馈神经网络 海量文本数据 情感分析技术
2
基于长租公寓运管平台的短租业务管理系统及其方法
偏好特征 业务管理系统 公寓 识别模块 信息采集单元
3
一种潜在用户识别方法及相关装置
标签 关键词 语义 计算机可读指令 电子设备
4
一种数据库敏感数据脱敏与回溯控制方法及系统
数据库敏感数据 脱敏策略 审计日志 字段 文本
5
基于机顶盒通用遥控器的多协议适配方法及系统
协议适配方法 通用遥控器 协议适配系统 快照 Softmax函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号