摘要
本公开提供了一种说话人分离方法,涉及人工智能技术领域,具体涉及语音识别、自然语言处理、大语言模型等技术领域。该方法包括:将待分离视频切分为多个场景片段,分别提取多个场景片段的字幕信息和字幕信息对应的字幕时间轴;根据字幕时间轴提取场景片段的音频特征以及人脸特征;分别对音频特征和人脸特征进行聚类,根据聚类结果生成场景片段对应的场景分离结果;合并多个场景片段对应的场景分离结果,得到待分离视频对应的说话人分离结果。该方法提升了说话人分离结果的准确性,进而提升了用户对视频文件进行二次创作的效率和准确性。
技术关键词
字幕
人脸特征
音频特征
聚类
视频
大语言模型
语义
特征提取模块
人工智能技术
生成场景
计算机程序产品
字符识别
处理器通信
自然语言
指令