一种基于视听融合聚类的说话人日志生成方法

正文

推荐专利

申请号：CN202510077271

申请日期：2025-01-17

公开号：CN119964596B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于视听融合聚类的说话人日志生成方法，旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现：首先，采用重叠感知的语音分段模型进行音频片段的分段，解决重叠语音问题；其次，利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵；然后，通过音视频联合聚类方法，根据音频特征和视觉信息优化聚类数目，并利用K均值聚类完成说话人聚类；实验结果表明，采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。

技术关键词

日志生成方法视听特征值日志方法语音视觉信息优化联合聚类方法矩阵视频人脸检测算法三元组追踪算法声纹特征音频特征序列帧

系统为您推荐了相关专利信息

游戏平台内的AI角色交互方法、交互装置及交互设备

角色交互方法游戏平台多模态交互交互内容策略

基于混沌特征检测芯片缺陷的方法、电子设备及介质

混沌特征检测芯片重构相空间数据采集频率非暂态计算机可读存储介质

一种机器人的烹饪轨迹规划控制系统、方法及机器人

规划控制系统菜谱信息厨具轨迹规划方法地图

一种基于自监督学习的视频内容分析方法及相关装置

视频内容分析方法文本识别模型字幕视频编码器音频

一种基于虚拟平台的肺癌患者心理健康评估干预系统

评估干预系统心理健康放松训练心理量表患者

一种基于视听融合聚类的说话人日志生成方法

站点导航

APP 下载