摘要
本发明提供一种基于大模型的音频数据语义内容匿名化方法、装置和设备,属于数据处理领域。方法包括:获取目标音频;对目标音频进行对齐处理,得到目标音频对应的目标文本和目标文本中每个字符的时间戳信息;获取多个实体类别标签,多个实体类别标签中每个实体类别标签对应一个待匿名化处理的实体类别;分别获取多个实体类别标签的提示词模板,提示词模板用于指导预设模型的输出内容;将目标文本和多个提示词模板输入预设模型,得到预设模型输出的实体识别序列,实体识别序列用于指示目标文本中包括的待匿名化处理的实体;根据时间戳信息和实体识别序列对目标音频进行匿名化处理。可以提高对音频中隐私内容的识别准确度和模型的泛化能力。
技术关键词
实体
音频
标签
模板
序列
匿名化方法
文本
非暂态计算机可读存储介质
大语言模型
语义
损失函数优化
矩阵
预训练模型
数据
字符
处理器
自然语言
处理单元
存储器
基座
系统为您推荐了相关专利信息
发电量预测方法
历史运行数据
斯皮尔曼相关系数
历史气象数据
序列
视觉特征提取
数据处理方法
图像类别
图像分类模型
图像块
故障识别方法
舒适度
信号
故障识别系统
变分模态分解算法