openai-whisper-api¶

Skill 简介¶

openai-whisper-api 是一个基于 OpenAI 的 Whisper API 的技能，旨在为开发者提供强大的音频转文字功能。通过这个 Skill，开发者可以轻松地将音频文件转换为文本内容，支持多种语言和格式。OpenAI 的 Whisper 模型以其高精度和广泛的语言支持而闻名，能够处理不同口音、背景噪音等复杂情况下的音频转录任务。

该 Skill 的设计初衷是为了简化音频转文字的开发流程，减少开发者集成第三方 API 的工作量。通过提供简单的命令行接口和灵活的配置文件，openai-whisper-api 使得开发者能够快速上手，并在各种应用场景中集成音频转文字功能。无论是语音识别、字幕生成，还是语音分析，openai-whisper-api 都能提供可靠的支持。

主要功能¶

1. 音频转文字
openai-whisper-api 支持将多种格式的音频文件转换为文本。用户可以通过命令行指定输入文件和输出路径，Skill中默认使用 OpenAI 的 whisper-1 模型进行转录，确保转录结果的准确性。

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

2. 多语言支持
该 Skill 支持多种语言的音频转文字。用户可以通过 --language 参数指定音频的语言，例如英文、中文、日文等。这使得开发者能够在全球化应用中灵活处理多语言音频内容。

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en

3. 自定义提示
开发者可以通过 --prompt 参数提供额外的上下文信息，帮助模型更好地理解音频内容。例如，指定说话人姓名或特定主题，可以提高转录的准确性。

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"

4. JSON 输出格式
除了纯文本输出，openai-whisper-api 还支持将转录结果以 JSON 格式输出。这对于需要进一步处理或分析转录数据的开发者来说非常有用。

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json

5. 模型选择
用户可以根据需求选择不同的 Whisper 模型，例如 whisper-1 或其他可用的模型，以平衡转录速度和准确性。

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt

使用场景¶

语音识别应用
在开发语音助手、语音控制应用时，openai-whisper-api 可以将用户的语音指令转换为可处理的文本，从而实现更智能的人机交互。
字幕生成
对于视频内容创作者或平台，openai-whisper-api 可以自动生成视频字幕，提升内容的可访问性和用户体验。
会议记录
在企业会议或在线研讨会中，openai-whisper-api 可以实时或事后将会议音频转换为文本记录，方便后续查阅和分析。
语音分析
对于需要分析用户语音数据的应用，例如情感分析或市场调研，openai-whisper-api 提供了可靠的文本转换基础。
多语言翻译
结合翻译服务，openai-whisper-api 可以将多语言音频转换为文本，再进行翻译，实现跨语言交流。

如何使用¶

安装与配置¶

安装依赖
确保系统中已安装 curl。可以通过以下命令安装：
bash sudo apt-get install curl
设置 API 密钥
获取 OpenAI 的 API 密钥，并在 ~/.openclaw/openclaw.json 配置文件中进行设置：
json5 { skills: { "openai-whisper-api": { apiKey: "YOUR_OPENAI_API_KEY", }, }, }
或者，可以通过环境变量 OPENAI_API_KEY 进行设置：
bash export OPENAI_API_KEY=YOUR_OPENAI_API_KEY

前置条件¶

操作系统：Linux、macOS 或 Windows（通过命令行工具）
网络连接：稳定的互联网连接，用于访问 OpenAI 的 API

示例¶

示例 1：基本转录¶

将音频文件 audio.m4a 转换为文本，并输出到 transcript.txt：

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

示例 2：指定语言和输出格式¶

将中文音频文件 audio.m4a 转换为文本，并输出为 JSON 格式：

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language zh --json --out /tmp/transcript.json

总结¶

openai-whisper-api 是一个功能强大且易于使用的音频转文字工具，专为开发者设计。它通过集成 OpenAI 的 Whisper API，提供了高准确度的转录服务，支持多语言和多种输出格式。适用于语音识别、字幕生成、会议记录、语音分析等多种应用场景。通过简单的配置和命令行操作，开发者可以快速集成该 Skill，提升应用的功能性和用户体验。无论是个人项目还是企业级应用，openai-whisper-api 都是一个值得信赖的解决方案。

openai-whisper-api