openai-whisper-api¶
Skill 简介¶
openai-whisper-api 是一个基于 OpenAI 的 Whisper API 的技能,旨在为开发者提供强大的音频转文字功能。通过这个 Skill,开发者可以轻松地将音频文件转换为文本内容,支持多种语言和格式。OpenAI 的 Whisper 模型以其高精度和广泛的语言支持而闻名,能够处理不同口音、背景噪音等复杂情况下的音频转录任务。
该 Skill 的设计初衷是为了简化音频转文字的开发流程,减少开发者集成第三方 API 的工作量。通过提供简单的命令行接口和灵活的配置文件,openai-whisper-api 使得开发者能够快速上手,并在各种应用场景中集成音频转文字功能。无论是语音识别、字幕生成,还是语音分析,openai-whisper-api 都能提供可靠的支持。
主要功能¶
1. 音频转文字
openai-whisper-api 支持将多种格式的音频文件转换为文本。用户可以通过命令行指定输入文件和输出路径,Skill中默认使用 OpenAI 的 whisper-1 模型进行转录,确保转录结果的准确性。
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a
2. 多语言支持
该 Skill 支持多种语言的音频转文字。用户可以通过 --language 参数指定音频的语言,例如英文、中文、日文等。这使得开发者能够在全球化应用中灵活处理多语言音频内容。
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en
3. 自定义提示
开发者可以通过 --prompt 参数提供额外的上下文信息,帮助模型更好地理解音频内容。例如,指定说话人姓名或特定主题,可以提高转录的准确性。
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"
4. JSON 输出格式
除了纯文本输出,openai-whisper-api 还支持将转录结果以 JSON 格式输出。这对于需要进一步处理或分析转录数据的开发者来说非常有用。
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json
5. 模型选择
用户可以根据需求选择不同的 Whisper 模型,例如 whisper-1 或其他可用的模型,以平衡转录速度和准确性。
{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt
使用场景¶
-
语音识别应用
在开发语音助手、语音控制应用时,openai-whisper-api 可以将用户的语音指令转换为可处理的文本,从而实现更智能的人机交互。 -
字幕生成
对于视频内容创作者或平台,openai-whisper-api 可以自动生成视频字幕,提升内容的可访问性和用户体验。 -
会议记录
在企业会议或在线研讨会中,openai-whisper-api 可以实时或事后将会议音频转换为文本记录,方便后续查阅和分析。 -
语音分析
对于需要分析用户语音数据的应用,例如情感分析或市场调研,openai-whisper-api 提供了可靠的文本转换基础。 -
多语言翻译
结合翻译服务,openai-whisper-api 可以将多语言音频转换为文本,再进行翻译,实现跨语言交流。
如何使用¶
安装与配置¶
-
安装依赖
确保系统中已安装curl。可以通过以下命令安装:
bash sudo apt-get install curl -
设置 API 密钥
获取 OpenAI 的 API 密钥,并在~/.openclaw/openclaw.json配置文件中进行设置:
json5 { skills: { "openai-whisper-api": { apiKey: "YOUR_OPENAI_API_KEY", }, }, }
或者,可以通过环境变量OPENAI_API_KEY进行设置:
bash export OPENAI_API_KEY=YOUR_OPENAI_API_KEY
前置条件¶
- 操作系统:Linux、macOS 或 Windows(通过命令行工具)
- 网络连接:稳定的互联网连接,用于访问 OpenAI 的 API
示例¶
示例 1:基本转录¶
将音频文件 audio.m4a 转换为文本,并输出到 transcript.txt:
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a
示例 2:指定语言和输出格式¶
将中文音频文件 audio.m4a 转换为文本,并输出为 JSON 格式:
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language zh --json --out /tmp/transcript.json
总结¶
openai-whisper-api 是一个功能强大且易于使用的音频转文字工具,专为开发者设计。它通过集成 OpenAI 的 Whisper API,提供了高准确度的转录服务,支持多语言和多种输出格式。适用于语音识别、字幕生成、会议记录、语音分析等多种应用场景。通过简单的配置和命令行操作,开发者可以快速集成该 Skill,提升应用的功能性和用户体验。无论是个人项目还是企业级应用,openai-whisper-api 都是一个值得信赖的解决方案。