iSkills 原始文档
🎤

openai-whisper

OpenClaw Skill

Local speech-to-text with the Whisper CLI (no API key).


openai-whisper

Skill 简介

openai-whisper 是一个基于 OpenAI Whisper 模型开发的本地语音转文本(Speech-to-Text)工具,旨在为开发者提供便捷、高效的语音识别功能。与依赖云端 API 的解决方案不同,Whisper CLI 允许用户在本地环境中运行语音识别任务,无需担心 API 密钥管理或网络延迟问题。这使得它在数据隐私要求较高的场景中尤为适用,例如处理敏感音频数据或满足合规性要求。

Whisper 模型由 OpenAI 开发,是一个功能强大的多任务模型,不仅支持语音转文本,还支持翻译任务。其开源特性使其在开发者社区中迅速流行,并被广泛应用于各种需要语音识别的项目中。通过将 Whisper 集成到 OpenClaw 平台中,openai-whisper 进一步简化了安装和使用流程,使开发者能够更快速地将其应用于实际开发中。

主要功能

1. 本地语音转文本
openai-whisper 支持在本地环境中将音频文件转换为文本,无需依赖外部 API。用户可以指定音频文件的路径,并选择合适的模型进行转录。例如:

whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

这将把 audio.mp3 文件转换为文本,并保存到当前目录。

2. 翻译功能
除了语音转文本,Whisper 还支持将音频内容翻译成其他语言。用户可以通过 --task translate 参数指定翻译任务。例如:

whisper /path/audio.m4a --task translate --output_format srt

这将把 audio.m4a 文件的内容翻译成目标语言,并以 SRT 格式输出字幕文件。

3. 多格式支持
openai-whisper 支持多种音频格式,包括但不限于 MP3、M4A、WAV 等。这使得用户无需转换音频格式即可直接进行语音识别。

4. 模型选择
Whisper 提供了多种预训练模型,用户可以根据需求选择不同大小的模型。较小的模型适合对速度要求较高的场景,而较大的模型则在准确性上表现更优。例如:

whisper /path/audio.mp3 --model small --output_format txt --output_dir .

这将使用较小的模型进行语音转文本,速度更快但准确性可能稍低。

5. 输出格式多样化
openai-whisper 支持多种输出格式,包括纯文本(txt)、字幕文件(srt)等。用户可以根据实际需求选择合适的输出格式。

6. 缓存机制
首次运行时,Whisper 会将模型下载到本地缓存目录(~/.cache/whisper),后续运行将直接使用缓存模型,避免重复下载,提高效率。

使用场景

1. 语音助手开发
在开发语音助手时,openai-whisper 可以作为本地语音识别模块,提供快速、准确的语音转文本功能。

2. 会议记录
对于需要记录会议内容的场景,openai-whisper 可以实时将会议音频转换为文本,方便后续整理和分析。

3. 多语言翻译
在跨国团队或国际项目中,openai-whisper 可以将不同语言的音频内容翻译成目标语言,促进跨语言交流。

4. 数据分析
在需要对大量音频数据进行文本分析的场景中,openai-whisper 可以快速将音频转换为文本,简化数据分析流程。

5. 隐私保护
对于处理敏感音频数据的应用,openai-whisper 提供了本地运行的解决方案,确保数据隐私和安全。

如何使用

安装

openai-whisper 可以通过 Homebrew 进行安装:

brew install openai-whisper

安装完成后,可以通过以下命令验证安装:

whisper --version

配置

Whisper 默认使用 turbo 模型,用户可以根据需求选择其他模型:

whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

前置条件

示例

示例 1:语音转文本

whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

这将把 audio.mp3 文件转换为文本,并保存到当前目录。

示例 2:翻译功能

whisper /path/audio.m4a --task translate --output_format srt

这将把 audio.m4a 文件的内容翻译成目标语言,并以 SRT 格式输出字幕文件。

总结

openai-whisper 是一个功能强大且易于使用的本地语音转文本工具,适用于各种需要语音识别的开发场景。其本地运行特性确保了数据隐私和安全,同时多模型和多格式支持使其能够满足不同用户的需求。无论是开发语音助手、记录会议内容,还是进行多语言翻译,openai-whisper 都能提供高效、可靠的解决方案。对于需要本地语音识别功能的开发者来说,openai-whisper 是一个不可或缺的工具。

查看原始 SKILL.md 生成于 2026-03-12 · 内容由 AI 辅助生成