摘要
本发明公开了基于人工智能辅助谈话场景的语言识别方法及系统,属于语言识别技术领域,其方法具体包括:利用传感器采集音频信号和视频数据,实时对音频信号和视频数据进行噪声过滤,对噪声过滤后的音频信号进行预处理,对预处理后的音频信号中的语音进行分离,和谈话者进行分割,提取每个谈话者的语音特征,并根据语音特征进行语音解码,输出最终的文本,根据输出最终的文本和语境,分析谈话者的意图;通过摄像头捕捉谈话者的面部表情和肢体语言,并结合语音信号中的音调和情感信息,能够更加全面地理解对话的真实语义。
技术关键词
人工智能辅助
语言识别方法
语音特征
音频
意图
语言识别系统
信号
特征提取单元
短时傅里叶变换
多轮对话
文本
场景
时序
注意力机制
解码模块
语言识别技术
静态特征提取
数据采集模块
系统为您推荐了相关专利信息
碰撞预警方法
航向角信息
转向灯
意图
车辆行驶安全性
多模态
数据收集单元
语音控制单元
预训练模型
远程控制单元
人工智能辅助
低剂量CT图像
生成对抗网络
噪声
卷积神经网络模型
数字资产转换
分布式存储技术
音频制作技术
版权
动画制作技术