摘要
本发明涉及一种基于语义对齐的说话人日志生成方法,属于自然语言处理技术领域。本发明包括步骤:通过自监督模型提取高维语音表征,并在双分支解码器中分别获得说话人特征与语音内容特征;将语音内容特征增强并离散化;利用说话人日志生成模块基于说话人特征输出带时间戳的说话人日志;再通过大语言模型处理经过离散化后的语音内容特征以生成对应的转录文本;最后日志结果和转录文本按时间戳对齐合并,形成最终带文本的说话人日志结果,本发明显著提升了多说话人场景下日志的准确性和可读性。
技术关键词
日志生成方法
日志系统
解码器结构
大语言模型
语音编码器
分支
日志生成系统
语音识别文本
神经网络架构
说话人身份
音频
嵌入特征
语义特征
带时间
系统为您推荐了相关专利信息
医用加速器
大语言模型
异常数据
生成式对抗网络
编码器
文件生成方法
大语言模型
样本
基础
文件生成系统