摘要
本申请实施例提供一种用于富文本内容查重的方法、处理器以及存储介质,属于数据分析技术领域。方法包括:对富文本内容进行类别拆分,以得到文本内容和媒体内容,媒体内容包括图片内容、音频内容以及视频内容;对音频内容和视频内容进行转化,以得到文本内容和图片内容;对文本内容和图片内容进行特征提取,得到多个特征值;基于夹角余弦值确定文本内容特征值的相似度;基于海明距离确定图片内容特征值的相似度;根据相似度确定重复内容。本申请方案通过将富文本进行拆分并转化,得到文本内容和图片内容,再分别采用不同的计算方法计算文本内容和图片内容的相似度,以进行富文本内容查重,可避免不同类型内容计算的差异性,提高对查重的准确度。
技术关键词
富文本
特征值
图片
夹角余弦
媒体
音频
视频
感知哈希算法
机器可读存储介质
处理器
数据分析技术
间隔特征
离散余弦
特征提取模块
计算机程序产品
像素点
字幕
自然语言
系统为您推荐了相关专利信息
优化配置方法
制氢系统
性能预测模型
动态响应模型
序列
分析诊断方法
后台服务器
电子病历档案
计算机可读取存储介质
诊断仪
图像分割方法
注意力
参数化技术
上采样
sigmoid函数