摘要
本发明公开了一种基于情感驱动和人类专家反馈的机器行为学习方法,包括以下步骤:a)融合由BLIP‑2提取的环境图像特征和GPT‑4解析的文本指令语义特征,形成跨模态输入;b)利用人类专家遥控轨迹数据和跨模态输入,通过监督微调(SFT)训练基础VLA模型,得到基础行为策略;c)将情感识别模块与多头自注意力机制相结合,对基础策略融入情感交互依赖,生成高阶情感驱动行为表示;d)将高阶情感行为表示输入强化学习模块,利用Replay Buffer存储轨迹,通过人类专家反馈偏好学习进行优化,输出最终行为策略。本本发明相较于现有方法具有多模态特征提取能力强、情感融合程度高、专家反馈利用充分等优点,可在一定程度上提升机器对人类指令与情感的响应准确度和交互体验。
技术关键词
注意力机制
人类
模态特征
学习方法
轨迹
自动情感识别
策略
跨模态
语音情感识别
图像
视觉特征
文本特征向量
特征提取能力
识别模块
语义
指令
多模态
情感特征
大语言模型
系统为您推荐了相关专利信息
路径规划优化方法
路段
信息模块
群体智能模型
群体智能系统
智能识别方法
构建知识图谱
增量学习方法
场景
差分隐私方法
动态变化数据
放疗机器人
肿瘤
运动跟踪算法
图像获取模块
缆索承重桥梁
结构损伤识别方法
损伤识别模型
拉索
加速度