摘要
本发明提供一种基于多模态大语言模型的数据集自构建方法,属于机器人技术领域。本发明针对家庭服务机器人领域中传统数据集在多模态关联、动态场景建模与时序约束等方面的不足,设计了结构化的Prompt框架,通过结合语言‑视觉特征对齐技术与层次化任务分解策略,实现了用户自然语言指令到机器人执行动作的可靠映射,构建了面向真实家庭复杂场景的数据集数据集。并且,本发明通过建立时空约束模型并设计了双层验证机制,有效提升了多模态大语言模型生成动作序列的执行合理性和任务连贯性。
技术关键词
家庭服务机器人
大语言模型
多模态
视觉特征
文本编码器
验证机制
语义
融合特征
节点
末端执行器
仿真平台
注意力机制
图像
场景
数据输入结构
线性时序逻辑
系统为您推荐了相关专利信息
医学图像配准方法
超分辨率重建模型
冠状
图像超分辨率重建
多模态
多模态深度学习
缺陷检测方法
深度学习网络
联合损失函数
分支
违建监测方法
多模态数据采集
特征提取模块
建筑图像数据
分析模块
门控循环单元
分类特征
线性回归模型
数据
锂电池寿命预测