このツールでできること
OpenAIが開発した音声認識AIです。録音・動画ファイルの文字起こしを高精度で実行します。日本語の精度が特に高く、方言・専門用語・早口にも対応しています。完全無料で使えるモデルがあり、APIを使えば大量処理も低コストで可能です。
主な機能
- 高精度な音声→テキスト変換(99言語対応)
- タイムスタンプ付きの文字起こし
- 翻訳機能(多言語音声を英語テキストに)
- ローカル実行(whisper.cppで完全オフライン可)
- OpenAI API経由での利用(1分あたり$0.006)
基本の使い方
① APIまたはサードパーティアプリで使う(推奨)
コードを書かずに使うには、WhisperKitアプリ(Mac)・MacWhisper・Descript等のWhisper搭載アプリを使う。音声ファイルをドラッグ&ドロップするだけで文字起こし完了。
② OpenAI APIで呼び出す
ChatGPT PlusのGPT-4oはWhisperを内包している。音声ファイルを添付して「文字起こしして」と依頼するだけで動く。
③ ローカルで動かす(上級者向け)
whisper.cppをインストールするとAPIキーなし・完全無料でローカル実行できる。長時間音声の大量処理に向いている。
こんな場面で使える
会議・インタビューの文字起こし:Zoomやスマホの録音をWhisperに通すだけで議事録の素材が完成する。手入力の議事録作業がなくなる
音声メモ→記事変換:スマホで録音したアイデアメモをWhisperで文字起こし→ChatGPTで記事化するフローで、移動中のアイデアを無駄なく活用できる
YouTube動画の字幕生成:自分のYouTube動画をWhisperで文字起こしして、字幕ファイル(SRT形式)として書き出せる
料金・プラン
- OpenAI API:$0.006/分(10分の音声で約$0.06)
- ローカル版(whisper.cpp):完全無料・無制限
- MacWhisper(Mac専用アプリ):基本機能無料・高度な機能は買い切り$29
使いこなすコツ
- 日本語の精度はOtter.aiより高い。日本語メインの会議・インタビューにはWhisperの方が向いている
- 文字起こし後の整形はChatGPTに任せる。「以下の文字起こしを読みやすい形式に整えて、話者を区別して」と続けると完成度が上がる
- 長時間音声(1時間以上)はAPIより無料のローカル版の方がコスト効率が良い
活用例はこれから拡充予定です
ログインすると、使ってみた感想・コツ・注意点を追記できます
ログインすると追記できます。アカウント作成はこちら