训练样本选取方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
训练样本选取方法、装置、电子设备及存储介质
申请号:CN202510478138
申请日期:2025-04-16
公开号:CN120409489A
公开日期:2025-08-01
类型:发明专利
摘要
本发明涉及计算机技术领域,提供一种训练样本选取方法、装置、电子设备及存储介质。该方法包括:首先将主播的直播语音转换为直播文本,并滤除直播文本中的干扰信息得到目标文本;然后确定目标文本中每个句子的语义特征和风格特征,并将每个句子的语义特征和风格特征存储至主播的主播语料库;最后按照预设的分层聚类策略,基于主播语料库中每个句子的语义特征和风格特征进行聚类,获得多个目标句子,并将每个目标句子均作为主播对应的角色扮演模型的训练样本;其中,角色扮演模型用于模仿主播的语言风格。通过选取能够准确表示主播语言风格的文本以训练角色扮演模型,从而提高了模型的训练效果和模仿能力。
技术关键词
语义特征 文本 风格 聚类算法 电子设备 分层 语音 策略 冗余 标志 处理器 存储器 参数 模块 语句 邻域
系统为您推荐了相关专利信息
1
文本识别方法、装置、设备、介质及产品
文本识别方法 标识 字符识别 图案 计算机程序产品
2
一种基于元伪标签的半监督恶意域名检测方法及系统
恶意域名检测方法 伪标签生成器 节点 分类器 优化域名
3
一种基于大语言模型的放疗目标体积识别方法
体积识别方法 大语言模型 结构纹理图像 斑块 生成结构
4
一种基于电力网络拓扑结合自然语言处理的调度监督方法
电力网络拓扑 自然语言 电网网络结构 文本 SCADA系统
5
芯片输出数据的采集方法、装置、电子设备及存储介质
比特流 数据 预定算法 信号 芯片测试效率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号