摘要
本发明涉及语音识别与自然语言处理技术领域,具体公开了一种基于检索增强的执法记录仪音频语义检索方法及系统,系统包括:数据获取模块,用于获取音频数据和文本查询;语音适配器模块,用于将音频数据投影到文本嵌入空间,得到语音表示;跨模态检索器,用于对语音表示和文本查询进行跨模态检索,得到语音Tokens;语音语言模型,用于得到的文字假设;查询生成模块,用于提取可能包含实体名称的查询片段;实体检索模块,用于根据查询片段,检索实体数据库,得到相关实体名称;上下文构建模块,用于构建上下文信息;大语言模型,用于得到语义检索结果。本发明提高执法记录仪音频中实体名称和关键信息的识别与检索准确性。
技术关键词
执法记录仪
语义检索系统
语义检索方法
语音适配器
音频
语音编码器
大语言模型
跨模态
文本检索方法
命名实体识别模型
数据获取模块
注意力
层级
采样器
系统为您推荐了相关专利信息
多模态语音
交互方法
语音特征
高灵敏度麦克风
多模态信息融合