摘要
本发明公开了一种基于视听融合聚类的说话人日志生成方法,旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现:首先,采用重叠感知的语音分段模型进行音频片段的分段,解决重叠语音问题;其次,利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵;然后,通过音视频联合聚类方法,根据音频特征和视觉信息优化聚类数目,并利用K均值聚类完成说话人聚类;实验结果表明,采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。
技术关键词
日志生成方法
视听
特征值
日志方法
语音
视觉信息优化
联合聚类方法
矩阵
视频
人脸检测算法
三元组
追踪算法
声纹特征
音频特征
序列帧
系统为您推荐了相关专利信息
角色交互方法
游戏平台
多模态交互
交互内容
策略
混沌特征
检测芯片
重构相空间
数据采集频率
非暂态计算机可读存储介质
视频内容分析方法
文本识别模型
字幕
视频编码器
音频