摘要
本发明公开了一种基于GPT的渐进迁移训练解码方法,属于视觉神经解码领域。本发明基于被试观看大量视觉感知图像时记录下的功能磁共振信号数据构建了基于GPT的类别和文本解码模型,其包括:图像编码器,用于将采用预训练模型提取的图像特征向量嵌入到隐特征空间:文本编码器,将包含任务信息的Prompt和位置编码嵌入到隐特征空间;视觉信息编码器,使用GRU将大脑视觉区域体素信号映射到隐特征空间;全脑信息编码器,根据大脑视觉区域体素信号作为上下文,指导大脑其他区域的体素信号的选取,并将全局信息映射到隐特征空间;语言生成器,融合以上所有的隐特征并选取概率最高的Token以进行对应内容的文本生成。本发明提高了解码准确率,增强了模型的泛化能力。
技术关键词
信息编码器
图像特征向量
视觉
功能磁共振信号
图像编码器
解码模型
文本编码器
矩阵
序列
融合器
词嵌入向量
解码方法
线性插值法
图像特征提取模型
解码器
阶段
多头注意力机制
预训练模型
系统为您推荐了相关专利信息
视频内容分析方法
半监督学习方法
视频流
元素
动态优先级调度算法