一种基于视听融合聚类的说话人日志生成方法

AITNT
正文
推荐专利
一种基于视听融合聚类的说话人日志生成方法
申请号:CN202510077271
申请日期:2025-01-17
公开号:CN119964596B
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于视听融合聚类的说话人日志生成方法,旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现:首先,采用重叠感知的语音分段模型进行音频片段的分段,解决重叠语音问题;其次,利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵;然后,通过音视频联合聚类方法,根据音频特征和视觉信息优化聚类数目,并利用K均值聚类完成说话人聚类;实验结果表明,采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。
技术关键词
日志生成方法 视听 特征值 日志方法 语音 视觉信息优化 联合聚类方法 矩阵 视频 人脸检测算法 三元组 追踪算法 声纹特征 音频特征 序列帧
系统为您推荐了相关专利信息
1
游戏平台内的AI角色交互方法、交互装置及交互设备
角色交互方法 游戏平台 多模态交互 交互内容 策略
2
基于混沌特征检测芯片缺陷的方法、电子设备及介质
混沌特征 检测芯片 重构相空间 数据采集频率 非暂态计算机可读存储介质
3
一种机器人的烹饪轨迹规划控制系统、方法及机器人
规划控制系统 菜谱信息 厨具 轨迹规划方法 地图
4
一种基于自监督学习的视频内容分析方法及相关装置
视频内容分析方法 文本识别模型 字幕 视频编码器 音频
5
一种基于虚拟平台的肺癌患者心理健康评估干预系统
评估干预系统 心理健康 放松训练 心理量表 患者
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号