摘要
本说明书实施例公开了一种音视频处理方法、装置、电子设备、存储介质及程序产品。所述方法包括:对待处理的第一音视频进行语音识别,得到第一文本;通过大模型,基于所述第一文本的文本内容将所述第一文本划分为具有层级关系的多个第一文本块,以及基于每个第一文本块的文本内容,生成每个第一文本块的标题;基于所述多个第一文本块之间的层级关系和每个第一文本块的标题,生成所述第一音视频对应的结构化文档,所述结构化文档中每个第一文本块具有对应的时间信息。这样,将任何音视频的内容结构化成一个蕴含丰富信息的文档,该文档可被现有的知识问答链路直接使用,从而无需更改知识问答链路的架构,就可以将任何音视频的内容应用于知识问答。
技术关键词
文本
音视频
层级
语句
目录
关系
电子设备
计算机程序产品
图片
可读存储介质
处理器
语义
排版
语音
识别模块
页面
时序
链路
指令
系统为您推荐了相关专利信息
课程推荐方法
动态规划方法
流网络模型
节点
因子
知识图谱构建方法
神经网络结构
文本特征向量
注意力机制
图像块
融合特征
图像识别模型
图像识别方法
特征提取方式
注意力