摘要
本发明公开了一种基于多摄像机视线追踪与大模型集成的多模态交互智能系统及方法,属于机器人技术领域。为解决现有技术视线追踪不准、多模态融合不足、交互不智能的问题,本发明的技术方案要点包括:通过多摄像机阵列计算用户三维视线向量,并利用神经网络进行个性化校准以提升精度;基于精确时间戳,将视线向量与语音、手势等其他模态数据进行同步融合,形成统一的上下文向量;将该向量提交至预训练大模型进行意图理解与决策,并驱动交互终端执行任务。本发明能够显著提升人机交互的准确性与自然度,可广泛应用于教育、医疗及科学研究等领域。
技术关键词
交互终端
摄像机阵列
数据处理单元
校准
智能机器人系统
轻量级神经网络
神经网络模型
麦克风阵列采集
多模态数据融合
智能系统
意图
精确时间戳
手势
模块
图形用户界面
生成机器
语音
机器人技术
系统为您推荐了相关专利信息
玻璃磨边设备
数字化检测系统
粗糙度
数字化检测方法
校准激光器
加热测试装置
温度控制模块
数据分析模块
待测芯片
测试电路
汽车扣件
倍速链输送
升降组件
滑轨组件
搬运机器人
制动系统
时域特征
频域特征
融合特征
状态识别方法
数量统计方法
注意力机制
数据获取单元
融合可见光图像
拉普拉斯