一种文本、图像和视频多模态融合的文本生成方法及系统

AITNT
正文
推荐专利
一种文本、图像和视频多模态融合的文本生成方法及系统
申请号:CN202411647302
申请日期:2024-11-18
公开号:CN119578546A
公开日期:2025-03-07
类型:发明专利
摘要
本发明属于网络空间认知域技术领域,公开了文本、图像和视频多模态融合的文本生成方法及系统。该方法基于用户发布的图像、视频和文本内容,通过大模型提取多模态中的重要特征,生成相关描述并促进描述信息共享,抽取出关键信息与核心概念实现不同模态间的深度整合,最终在大模型基础上生成符合语境的精确文本。本发明实现了多模态融合,提供清晰且精确的视觉信息,解决文本生成内容角度单一,减少了文本生成中的表达模糊性的问题。
技术关键词
文本生成方法 多模态 视频 图像 交叉注意力机制 融合特征 非结构化文本信息 实体 关键帧提取方法 视觉 社交 文本生成系统 媒体 概念 面部微表情 核心 语义层面
系统为您推荐了相关专利信息
1
钻井自动化系统多模态风险感知方法及装置
风险 指标 钻井自动化 计算机执行指令 噪声参数
2
一种齿轮加工用机器人
轴向调节机构 检测探针 上料组件 机器人 图像分析仪
3
一种基于改进A星算法的最佳接缝线检测方法及系统
A星算法 缝线 多光谱 节点 特征点集合
4
一种基于3D打印的自稳型椎间融合器制备方法及系统
三维数字模型 医学影像数据 孔结构 执行温度补偿 骨长入
5
电梯井道底坑异物检测方法、装置、电子设备和存储介质
电梯井道底坑 异物检测方法 地面 轮廓 异物检测装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号