摘要
本发明涉及一种穿戴式技能教示系统,包括可穿戴式摄像装置、语音处理模块、前端服务模块、后端服务模块及基于EgoVideo模型的多模态交互模块,可穿戴式摄像装置实时获取用于第一视角的视频流并传送给后端服务模块,监听到唤醒关键词后监听用户指令,监听到用户语音指令后,将语音指令转换为文字指令信息,将文字指令信息以及视频流输入至基于EgoVideo模型的多模态交互模块,返回文字回复信息以及生成的预测视频,并通过前端服务模块进行展示。与现有技术相比,本发明能够同时处理理解和生成任务,支持用户第一视角的对话和视频生成,具有较好的用户技能教示体验感。
技术关键词
穿戴式摄像装置
语言模块
视频流
交互历史
记忆
视频生成模型
语音
基础
文本
分支
多模态交互
动态增量
三元组
指令
关键词
视角
网络
系统为您推荐了相关专利信息
终端交互方法
多模态注意力
交互内容
多通道
负荷
光学特性参数
干扰波
光束
协方差矩阵
双曲正切函数
电化学气体传感器
加速劣化
自动分析方法
电化学传感器技术
校正
浓度传感器
异常检测方法
空间分布特征
长短期记忆网络
序列
智能应答系统
手持式设备
实时语音
客户
长短期记忆网络