摘要
一种融合文本与图像特征的不良网站分类方法、系统、设备及介质,其方法为:通过建立DistilBERT‑BiLSTM‑Attention模型对文本处理分类;采用CLIP模型进行图像内容处理,通过多模态对比学习以及大规模数据预训练以保证输出特征的准确性;最后,在特征选择上,文本内容方面通过选取网页标题、图像OCR提取的文本以及网页文本内容数据进行特征提取;图像内容方面,则选取了网页内嵌图像和网页截图;充分利用网页的各类内容,结合文本与图像的互补特性,进行分类;其系统、设备及介质基于所述分类方法,实现融合文本与图像特征的不良网站分类;本发明提高了分类的准确性,并增强了模型应对复杂网站的能力。
技术关键词
网站分类方法
文本
图像分类模型
图像内容分类
停用词表
Attention机制
逻辑回归模型
选取网页
多模态
爬虫框架
网站分类系统
注意力
Softmax函数
Sigmoid函数
图像数据预处理
分类预测方法
词语