摘要
本发明属于大模型训练领域,具体涉及一种基于视觉交互的多模态数据标注与大模型思维链训练方法。该方法包括以下步骤:1、多模态数据采集;2、将多模态数据显示到显示器上,通过显示器将多模态数据展示给专家,采用眼动数据采集设备记录专家观看显示器上多模态数据时的眼动轨迹,并且采用语音采集设备采集专家的语音信息;3、根据眼动轨迹和语音信息,形成多模态标注数据;4、对多模态标注数据进行预处理后,再将其输入至大模型进行训练,得到训练好的大模型。本发明能够采集专家在标注过程中的多模态标注数据,将专家的思维链和思维过程进行显性化处理,并进行逻辑融合,提升大模型的信息广度和准确度。
技术关键词
语音采集设备
文本特征向量
图像特征向量
多模态数据采集
显示器
眼动数据
注视点
图片
视觉特征
BERT模型
眼动轨迹
图像类别
系统为您推荐了相关专利信息
亮度
轻量级神经网络
智能调光
液晶显示器背光
预测液晶显示器
停车指导系统
现场设备
停车场车位数据
三维模型
大数据
职业
虚拟现实环境
多模态交互
模块通信
情景模拟系统
运动轨迹数据
动态重建方法
多模态数据融合
表面肌电信号
多模态数据采集
语音图像识别
多媒体
关键词
公共设施
数据分析模块