训练样本选取方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510478138

申请日期：2025-04-16

公开号：CN120409489A

公开日期：2025-08-01

类型：发明专利

摘要

本发明涉及计算机技术领域，提供一种训练样本选取方法、装置、电子设备及存储介质。该方法包括：首先将主播的直播语音转换为直播文本，并滤除直播文本中的干扰信息得到目标文本；然后确定目标文本中每个句子的语义特征和风格特征，并将每个句子的语义特征和风格特征存储至主播的主播语料库；最后按照预设的分层聚类策略，基于主播语料库中每个句子的语义特征和风格特征进行聚类，获得多个目标句子，并将每个目标句子均作为主播对应的角色扮演模型的训练样本；其中，角色扮演模型用于模仿主播的语言风格。通过选取能够准确表示主播语言风格的文本以训练角色扮演模型，从而提高了模型的训练效果和模仿能力。

技术关键词

语义特征文本风格聚类算法电子设备分层语音策略冗余标志处理器存储器参数模块语句邻域

系统为您推荐了相关专利信息

文本识别方法、装置、设备、介质及产品

文本识别方法标识字符识别图案计算机程序产品

一种基于元伪标签的半监督恶意域名检测方法及系统

恶意域名检测方法伪标签生成器节点分类器优化域名

一种基于大语言模型的放疗目标体积识别方法

体积识别方法大语言模型结构纹理图像斑块生成结构

一种基于电力网络拓扑结合自然语言处理的调度监督方法

电力网络拓扑自然语言电网网络结构文本 SCADA系统

芯片输出数据的采集方法、装置、电子设备及存储介质

比特流数据预定算法信号芯片测试效率

训练样本选取方法、装置、电子设备及存储介质

站点导航

APP 下载