一种文本、图像和视频多模态融合的文本生成方法及系统

正文

推荐专利

申请号：CN202411647302

申请日期：2024-11-18

公开号：CN119578546A

公开日期：2025-03-07

类型：发明专利

摘要

本发明属于网络空间认知域技术领域，公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容，通过大模型提取多模态中的重要特征，生成相关描述并促进描述信息共享，抽取出关键信息与核心概念实现不同模态间的深度整合，最终在大模型基础上生成符合语境的精确文本。本发明实现了多模态融合，提供清晰且精确的视觉信息，解决文本生成内容角度单一，减少了文本生成中的表达模糊性的问题。

技术关键词

文本生成方法多模态视频图像交叉注意力机制融合特征非结构化文本信息实体关键帧提取方法视觉社交文本生成系统媒体概念面部微表情核心语义层面

系统为您推荐了相关专利信息

钻井自动化系统多模态风险感知方法及装置

风险指标钻井自动化计算机执行指令噪声参数

一种齿轮加工用机器人

轴向调节机构检测探针上料组件机器人图像分析仪

一种基于改进A星算法的最佳接缝线检测方法及系统

A星算法缝线多光谱节点特征点集合

一种基于3D打印的自稳型椎间融合器制备方法及系统

三维数字模型医学影像数据孔结构执行温度补偿骨长入

电梯井道底坑异物检测方法、装置、电子设备和存储介质

电梯井道底坑异物检测方法地面轮廓异物检测装置

一种文本、图像和视频多模态融合的文本生成方法及系统

站点导航

APP 下载