语音识别 (ASR)

MediaPipe4USpeech 提供了语音识别(ASR)方案,支持实时的,离线的,低延迟的语音识别。

MediaPipe4USpeech ASR 提供以下功能:

  • 离线语音,本地通过 CPU 推理的语音识别方案。
  • VAD,算法 + AI 模型的双重人声检测,大幅降低误识别的概率。
  • 标点恢复,基于 AI 模型的语音识别后标点恢复,生成带有标点的文本。
  • 开发自定义语音识别时,支持任意音频采样率和通道数的重采样。
  • 音频算法降噪,非 AI 的纯数学算法降噪,可以在一定程度过滤环境噪音。
  • 语音识别接口,方便集成第三方的语音识别服务。

Table of contents