摘要
本申请涉及多模态大模型技术领域,适用于金融科技及医疗健康养老领域,公开了一种幻灯片讲解视频生成方法、装置、计算机设备及存储介质。方法包括:获取幻灯片文件,对幻灯片文件进行处理,得到处理后的文件数据;将文件数据输入至多模态大模型,得到讲解脚本数据;将讲解脚本数据输入至多模态大模型,对齐并生成得到融合指令信息;根据视觉内容指令信息,调用视觉素材库,得到动画数据;将语音内容指令信息输入至文本转语音模型,得到配音数据;根据动画数据和配音数据,合成得到幻灯片讲解视频。本申请的讲解视频生成方法,能够解决相关工具视频生成效率过低、效果生硬、操作不便等问题,满足金融科技和医疗康养领域的知识传播和业务推广需求。
技术关键词
视频生成方法
数据
多模态
脚本
指令
文本
视觉
计算机设备
语音
预训练模型
动画
视频生成装置
关键词
元素
处理器
可读存储介质
语义结构
医疗健康
模块
系统为您推荐了相关专利信息
网络探针
决策树模型
DNS解析
构建决策树
通信数据处理技术
溯源管理方法
动态环境监控
GPS双模定位系统
RFID读写器
物联网检测设备
可靠性参数
概率密度函数
规划
火箭发动机
子系统
系统故障预警方法
交叉注意力机制
无人平台
柴油机滑油
多模态传感器