openai-whisper¶

Skill 简介¶

openai-whisper 是一个基于 OpenAI Whisper 模型开发的本地语音转文本（Speech-to-Text）工具，旨在为开发者提供便捷、高效的语音识别功能。与依赖云端 API 的解决方案不同，Whisper CLI 允许用户在本地环境中运行语音识别任务，无需担心 API 密钥管理或网络延迟问题。这使得它在数据隐私要求较高的场景中尤为适用，例如处理敏感音频数据或满足合规性要求。

Whisper 模型由 OpenAI 开发，是一个功能强大的多任务模型，不仅支持语音转文本，还支持翻译任务。其开源特性使其在开发者社区中迅速流行，并被广泛应用于各种需要语音识别的项目中。通过将 Whisper 集成到 OpenClaw 平台中，openai-whisper 进一步简化了安装和使用流程，使开发者能够更快速地将其应用于实际开发中。

主要功能¶

1. 本地语音转文本
openai-whisper 支持在本地环境中将音频文件转换为文本，无需依赖外部 API。用户可以指定音频文件的路径，并选择合适的模型进行转录。例如：

whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

这将把 audio.mp3 文件转换为文本，并保存到当前目录。

2. 翻译功能
除了语音转文本，Whisper 还支持将音频内容翻译成其他语言。用户可以通过 --task translate 参数指定翻译任务。例如：

whisper /path/audio.m4a --task translate --output_format srt

这将把 audio.m4a 文件的内容翻译成目标语言，并以 SRT 格式输出字幕文件。

3. 多格式支持
openai-whisper 支持多种音频格式，包括但不限于 MP3、M4A、WAV 等。这使得用户无需转换音频格式即可直接进行语音识别。

4. 模型选择
Whisper 提供了多种预训练模型，用户可以根据需求选择不同大小的模型。较小的模型适合对速度要求较高的场景，而较大的模型则在准确性上表现更优。例如：

whisper /path/audio.mp3 --model small --output_format txt --output_dir .

这将使用较小的模型进行语音转文本，速度更快但准确性可能稍低。

5. 输出格式多样化
openai-whisper 支持多种输出格式，包括纯文本（txt）、字幕文件（srt）等。用户可以根据实际需求选择合适的输出格式。

6. 缓存机制
首次运行时，Whisper 会将模型下载到本地缓存目录（~/.cache/whisper），后续运行将直接使用缓存模型，避免重复下载，提高效率。

使用场景¶

1. 语音助手开发
在开发语音助手时，openai-whisper 可以作为本地语音识别模块，提供快速、准确的语音转文本功能。

2. 会议记录
对于需要记录会议内容的场景，openai-whisper 可以实时将会议音频转换为文本，方便后续整理和分析。

3. 多语言翻译
在跨国团队或国际项目中，openai-whisper 可以将不同语言的音频内容翻译成目标语言，促进跨语言交流。

4. 数据分析
在需要对大量音频数据进行文本分析的场景中，openai-whisper 可以快速将音频转换为文本，简化数据分析流程。

5. 隐私保护
对于处理敏感音频数据的应用，openai-whisper 提供了本地运行的解决方案，确保数据隐私和安全。

如何使用¶

安装¶

openai-whisper 可以通过 Homebrew 进行安装：

brew install openai-whisper

安装完成后，可以通过以下命令验证安装：

whisper --version

配置¶

Whisper 默认使用 turbo 模型，用户可以根据需求选择其他模型：

whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

前置条件¶

Python 环境：确保已安装 Python 3.7 及以上版本。
依赖库：安装 Whisper 所需的依赖库，可以通过以下命令安装：
bash pip install -r requirements.txt

示例¶

示例 1：语音转文本¶

whisper /path/audio.mp3 --model medium --output_format txt --output_dir .