摘要
本发明提供了一种AI眼镜的多模态交互和图像处理方法、电子设备和存储介质,包括:基于时空注意力机制对AI眼镜实时采集的原始图像进行预处理,得到预处理图像;对用户通过AI眼镜输入的语音指令进行语音识别与语义解析,得到文本指令;将文本指令与预设的图像处理指令模板库进行关键词匹配,确定对应的图像处理策略;若图像处理策略为动态追踪,利用卡尔曼滤波算法预测预处理图像中的目标在下一帧的位置,利用孪生网络在预测的位置周边搜索,定位所述目标;基于孪生网络实时学习更新目标的外观特征,实现对目标的稳定追踪并输出追踪目标图像序列。在本发明中,克服了当前无法预测目标的后续出现位置,以及无法稳定追踪目标的缺陷。
技术关键词
AI眼镜
多模态交互
时空注意力机制
图像处理方法
卡尔曼滤波算法
字符
搜索特征
语音
指令
三维卷积神经网络
关键字
序列
信息编码
局部细节特征
动态变化特征
文本
系统为您推荐了相关专利信息
建筑信息模型
故障定位方法
建筑设备
时空注意力机制
巡检路径
储能变流器
构网方法
虚拟同步机
虚拟惯量
卡尔曼滤波算法
动力定位方法
水下机器人
扰动观测器
推进器
双目相机
安全监控方法
石油设备
光纤振动传感器
卡尔曼滤波算法
时间序列分析技术
多特征参数
图像处理方法
风格
人脸检测区域
图像采集模块