摘要
本申请公开了一种用于智能眼镜的语音信息处理方法、装置及智能眼镜。通过接收智能眼镜采集的环境音频并使用预先构建的多模态转换模型进行多模态解析翻译处理,生成包含语言词元和音色向量的输出项。这些输出项经过时间标记,其中时间与记录时间段相对应。随后,通过音色向量在音色库中的检索,确定每个输出项对应的发言用户。针对同一发言用户的各输出项,根据它们的时间标记进行时序拼接,生成该用户的目标数据,确保这些内容的标注有发言时间,指示了内容起始时间。最后,将各用户生成的目标数据通过智能眼镜进行输出和显示。本申请可以实现说话者身份识别和多语言同步翻译。
技术关键词
智能眼镜
声纹特征
解码单元
语音信息处理方法
多模态
音频
转换文本
语音信息处理装置
扬声器模块
标记
信息处理系统
音色特征
时间段
识别用户语音
时序
数据
传输模块
矩阵
系统为您推荐了相关专利信息
语音交互系统
模型驱动方法
后台业务系统
企业
微信号
情感分析模型
多模态特征融合
情感分析方法
交互特征
融合特征
自主建图方法
关键点
动态物体
图像配准精度
自主系统
计算机可执行指令
机器人交互
多模态方式
反馈特征
计算机程序产品