用于互联网数据的小语种图文数据集构建方法、设备及介质

正文

推荐专利

申请号：CN202411519264

申请日期：2024-10-29

公开号：CN119577205A

公开日期：2025-03-07

类型：发明专利

摘要

本发明涉及一种用于互联网数据的小语种图文数据集构建方法、设备及介质，包括：获取HTML网页文件，从中提取出包含小语种图文数据的多模态文档，根据多模态文档中图片对应的可替换文本筛选出图文相关对；将多模态文档中不含可替换文本的纯图片和去除图片后的文本信息、以及自定义提示词输入至第一多模态大模型，生成对应的图片描述信息和图文问答信息，将纯图片和图片描述信息组成图文描述对，将纯图片和图文问答信息组成视觉问答对；将多模态文档、图文相关对、图文描述对及视觉问答对输入至第二多模态大模型，输出图片场景标签；组合上述信息后得到小语种图文数据集。与现有技术相比，本发明可实现高质量、多样化且标准化的小语种图文数据集构建。

技术关键词

数据集构建方法图文图片多模态互联网视觉文档对象模型文本去重文本段落中文文本物体检测场景标签图像处理器可读存储介质存储器电子设备

系统为您推荐了相关专利信息

基于多模态数据融合伪孪生神经网络航空发动机轴承故障诊断方法及系统

孪生神经网络多模态数据融合航空发动机轴承卷积神经网络模块 GRU模型

一种基于多层级特征融合与对比学习的多模态假新闻检测方法

假新闻检测方法多模态特征多层级特征文本视觉特征

用于生成视频的方法、装置、设备和产品

页面视频文本主题计算机程序产品

基于相似性度量的刀具退化趋势分析方法

趋势分析方法稀疏编码特征高阶统计特征变分自动编码器动态贝叶斯网络

一种基於多模态融合与块级嵌入的PDF文档智能解析系统及方法

智能解析系统文本多模态信息预训练模型图像

用于互联网数据的小语种图文数据集构建方法、设备及介质

站点导航

APP 下载