摘要
本发明涉及计算机技术领域,提供一种训练样本选取方法、装置、电子设备及存储介质。该方法包括:首先将主播的直播语音转换为直播文本,并滤除直播文本中的干扰信息得到目标文本;然后确定目标文本中每个句子的语义特征和风格特征,并将每个句子的语义特征和风格特征存储至主播的主播语料库;最后按照预设的分层聚类策略,基于主播语料库中每个句子的语义特征和风格特征进行聚类,获得多个目标句子,并将每个目标句子均作为主播对应的角色扮演模型的训练样本;其中,角色扮演模型用于模仿主播的语言风格。通过选取能够准确表示主播语言风格的文本以训练角色扮演模型,从而提高了模型的训练效果和模仿能力。
技术关键词
语义特征
文本
风格
聚类算法
电子设备
分层
语音
策略
冗余
标志
处理器
存储器
参数
模块
语句
邻域
系统为您推荐了相关专利信息
文本识别方法
标识
字符识别
图案
计算机程序产品
恶意域名检测方法
伪标签生成器
节点
分类器
优化域名
体积识别方法
大语言模型
结构纹理图像
斑块
生成结构
电力网络拓扑
自然语言
电网网络结构
文本
SCADA系统