摘要
本发明属于人工智能技术领域,具体涉及一种利用智能眼镜语音辅助盲人日常生活的方法,包括有以下步骤:步骤S100:图像特征提取;步骤S200:文本特征提取;步骤S300:多模态特征融合;步骤S400:文本生成;步骤S500:文本转语音:将所得到的文本序列通过语音输出;本发明的技术方案,能够在智能眼镜采集周围环境图像后,通过语音播报的方式,提示盲人具体方位下的环境、物体信息,可应用于包括物体识别、路径指引、交通信号识别、商品信息获取等方面,通过这些功能,失明人群可以更自主地进行日常活动,不仅能够显著提升失明人群的生活质量,还能够促进他们更好地融入社会,增强他们的自信心和独立性。
技术关键词
图像特征向量
文本特征向量
辅助盲人
智能眼镜
训练特征提取模型
语音
日常生活
BERT模型
多模态特征融合
序列
图像特征提取
注意力机制
解码器
采集周围环境
全局平均池化
韵律预测
系统为您推荐了相关专利信息
AR智能眼镜
风险
实时数据
SLAM技术
机器学习模型
文本特征向量
文本生成方法
聚类
大语言模型
文本生成装置
像素点
残差模块
解码器
建筑信息模型
图像特征编码
文本特征向量
文本编码器
图像特征向量
绘画
风格