摘要
本发明涉及一种用于互联网数据的小语种图文数据集构建方法、设备及介质,包括:获取HTML网页文件,从中提取出包含小语种图文数据的多模态文档,根据多模态文档中图片对应的可替换文本筛选出图文相关对;将多模态文档中不含可替换文本的纯图片和去除图片后的文本信息、以及自定义提示词输入至第一多模态大模型,生成对应的图片描述信息和图文问答信息,将纯图片和图片描述信息组成图文描述对,将纯图片和图文问答信息组成视觉问答对;将多模态文档、图文相关对、图文描述对及视觉问答对输入至第二多模态大模型,输出图片场景标签;组合上述信息后得到小语种图文数据集。与现有技术相比,本发明可实现高质量、多样化且标准化的小语种图文数据集构建。
技术关键词
数据集构建方法
图文
图片
多模态
互联网
视觉
文档对象模型
文本去重
文本段落
中文文本
物体检测
场景
标签
图像
处理器
可读存储介质
存储器
电子设备
系统为您推荐了相关专利信息
孪生神经网络
多模态数据融合
航空发动机轴承
卷积神经网络模块
GRU模型
假新闻检测方法
多模态特征
多层级特征
文本
视觉特征
趋势分析方法
稀疏编码特征
高阶统计特征
变分自动编码器
动态贝叶斯网络