基于多模态学习的视觉-文本协同摘要生成方法及系统

AITNT
正文
推荐专利
基于多模态学习的视觉-文本协同摘要生成方法及系统
申请号:CN202510352173
申请日期:2025-03-25
公开号:CN119862861B
公开日期:2025-07-15
类型:发明专利
摘要
本申请属于自然语言处理交叉领域,具体涉及一种基于多模态学习的视觉‑文本协同摘要生成方法及系统,包括多模态数据接收模块,用于并行接收多模态输入数据,包括文本数据和视觉数据;视觉语义理解模块,采用视觉语义理解模型提取图像的高层语义特征并生成文本描述;语义融合模块,采用基于方向一致性与自适应语义补全的视觉‑文本语义融合方法,将原始文本与生成的图像描述进行语义层面的融合;摘要优化模块,采用多层深度融合的混合神经网络架构对融合特征进行语义重构,生成符合上下文语义和准确表达的摘要文本。优点在于:精准对齐视觉和文本信息,生成高质量摘要,特别适用于新闻报道、会议记录、视频内容分析等需要跨模态信息融合的场景。
技术关键词
摘要生成方法 语义理解模型 多模态 图像 视觉特征编码 注意力 文本编码器 识别视频内容 摘要生成系统 sigmoid函数 解码器 生成文本摘要 动态 高层语义特征
系统为您推荐了相关专利信息
1
适用于智能镜的语音指令精确识别方法及系统
精确识别方法 语音识别模型 编码器 指令 识别特征
2
一种脑肿瘤图像识别系统及方法
脑肿瘤分割 脑肿瘤分类 多模态 图像识别系统 模态特征
3
一种基于大语言模型的软件成果验收方法
大语言模型 验收方法 多模态 生成文档 生成软件
4
应用于智能安防下的安全巡检方法及系统
智能安防 移动巡检设备 多模态 元素 风险
5
多准则联合约束的距离像序列超分辨方法
超分辨方法 重构模型 序列 矩阵 正则化参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号