基于视觉交互的多模态数据标注与大模型思维链训练方法

正文

推荐专利

申请号：CN202511053014

申请日期：2025-07-30

公开号：CN120562596B

公开日期：2025-11-21

类型：发明专利

摘要

本发明属于大模型训练领域，具体涉及一种基于视觉交互的多模态数据标注与大模型思维链训练方法。该方法包括以下步骤：1、多模态数据采集；2、将多模态数据显示到显示器上，通过显示器将多模态数据展示给专家，采用眼动数据采集设备记录专家观看显示器上多模态数据时的眼动轨迹，并且采用语音采集设备采集专家的语音信息；3、根据眼动轨迹和语音信息，形成多模态标注数据；4、对多模态标注数据进行预处理后，再将其输入至大模型进行训练，得到训练好的大模型。本发明能够采集专家在标注过程中的多模态标注数据，将专家的思维链和思维过程进行显性化处理，并进行逻辑融合，提升大模型的信息广度和准确度。

技术关键词

语音采集设备文本特征向量图像特征向量多模态数据采集显示器眼动数据注视点图片视觉特征 BERT模型眼动轨迹图像类别

系统为您推荐了相关专利信息

基于智能调光的液晶显示器背光控制方法及系统

亮度轻量级神经网络智能调光液晶显示器背光预测液晶显示器

基于大数据的停车场停车指导系统

停车指导系统现场设备停车场车位数据三维模型大数据

一种促进就业创业的职业情景模拟系统及其方法

职业虚拟现实环境多模态交互模块通信情景模拟系统

一种基于多模态数据融合的颅面动态重建方法及系统

运动轨迹数据动态重建方法多模态数据融合表面肌电信号多模态数据采集

一种基于多媒体语音图像识别的物业响应方法及系统

语音图像识别多媒体关键词公共设施数据分析模块

基于视觉交互的多模态数据标注与大模型思维链训练方法

站点导航

APP 下载