用于富文本内容查重的方法、处理器以及存储介质

AITNT
正文
推荐专利
用于富文本内容查重的方法、处理器以及存储介质
申请号:CN202410840000
申请日期:2024-06-26
公开号:CN118643819A
公开日期:2024-09-13
类型:发明专利
摘要
本申请实施例提供一种用于富文本内容查重的方法、处理器以及存储介质,属于数据分析技术领域。方法包括:对富文本内容进行类别拆分,以得到文本内容和媒体内容,媒体内容包括图片内容、音频内容以及视频内容;对音频内容和视频内容进行转化,以得到文本内容和图片内容;对文本内容和图片内容进行特征提取,得到多个特征值;基于夹角余弦值确定文本内容特征值的相似度;基于海明距离确定图片内容特征值的相似度;根据相似度确定重复内容。本申请方案通过将富文本进行拆分并转化,得到文本内容和图片内容,再分别采用不同的计算方法计算文本内容和图片内容的相似度,以进行富文本内容查重,可避免不同类型内容计算的差异性,提高对查重的准确度。
技术关键词
富文本 特征值 图片 夹角余弦 媒体 音频 视频 感知哈希算法 机器可读存储介质 处理器 数据分析技术 间隔特征 离散余弦 特征提取模块 计算机程序产品 像素点 字幕 自然语言
系统为您推荐了相关专利信息
1
基于深度学习的航路误差分析方法、装置、设备、介质及产品
时序特征 误差分析方法 融合特征 误差预测 矩阵
2
一种基于预训练扩散模型的通用零样本图像合成方法
图像 噪声预测 物体 流水线 注意力
3
考虑全生命周期收益的离网风电制氢系统的优化配置方法
优化配置方法 制氢系统 性能预测模型 动态响应模型 序列
4
一种基于深度学习的AI舌象健康分析诊断方法及诊断仪
分析诊断方法 后台服务器 电子病历档案 计算机可读取存储介质 诊断仪
5
一种基于局部注意力和细节增强的图像分割方法、系统
图像分割方法 注意力 参数化技术 上采样 sigmoid函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号