一种融合文本与图像特征的不良网站分类方法、系统、设备及介质

AITNT
正文
推荐专利
一种融合文本与图像特征的不良网站分类方法、系统、设备及介质
申请号:CN202510250471
申请日期:2025-03-04
公开号:CN120145115A
公开日期:2025-06-13
类型:发明专利
摘要
一种融合文本与图像特征的不良网站分类方法、系统、设备及介质,其方法为:通过建立DistilBERT‑BiLSTM‑Attention模型对文本处理分类;采用CLIP模型进行图像内容处理,通过多模态对比学习以及大规模数据预训练以保证输出特征的准确性;最后,在特征选择上,文本内容方面通过选取网页标题、图像OCR提取的文本以及网页文本内容数据进行特征提取;图像内容方面,则选取了网页内嵌图像和网页截图;充分利用网页的各类内容,结合文本与图像的互补特性,进行分类;其系统、设备及介质基于所述分类方法,实现融合文本与图像特征的不良网站分类;本发明提高了分类的准确性,并增强了模型应对复杂网站的能力。
技术关键词
网站分类方法 文本 图像分类模型 图像内容分类 停用词表 Attention机制 逻辑回归模型 选取网页 多模态 爬虫框架 网站分类系统 注意力 Softmax函数 Sigmoid函数 图像数据预处理 分类预测方法 词语
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号