OpenAI の Whisper for Windows で音声をテキストに変換する方法
OpenAI の Whisper は、あなたの声をテキストに変換できる AI を活用した新しいソリューションです。何よりも、それはゼロコストで提供されます。
ただし、落とし穴があります。平均的な Windows ユーティリティよりも、インストールして使用するのが難しいのです。特に、Nvidia GPU の Tensor コアを使用してブーストしたい場合。
しかし、心配しないでください。それが私たちがここにいる理由です!それをインストールして使用する方法を見つけるために読んでください.
OpenAI のウィスパーとは
ChatGPT は最近大流行しており、OpenAI で ChatGPT を使用する方法については既に説明しました。とはいえ、OpenAI による興味深いプロジェクトはこれだけではありません。
ディープ ラーニングとニューラル ネットワークを活用した Whisper は、音声を「理解」してテキストに変換できる自然言語処理システムです。しかし、それは独自のものでもあり、すべての同様のソリューションの中で適切な場所に座っています。
- Whisper は、自然言語で「トレーニング」された AI ソリューションです。そのため、古いソリューションよりも「通常の」人間の会話をよりよく理解できます。
- Whisper にはインターフェイスが付属しておらず、オーディオを録音することもできません。既存のオーディオ ファイルと出力テキスト ファイルのみを取得できます。
- Whisper は「言語を理解する」のが得意なので、ワンステップで自動翻訳できる超能力も備えています。
- ウィスパーはオンライン サービスではなく、完全にオフラインで動作します。
- 比較的新しい Nvidia GPU (GTX970 以降) を使用している場合、Whisper は「ハードウェア アクセラレーション モード」で実行して速度を上げることができます。
- 登録、ライセンスの購入、またはサブスクリプションの購入は必要ありません。
AMD GPU がサポートされていないのはなぜですか?
GPU がグラフィックス以外にも役立つようにするには、完全にプログラム可能なプロセッサとして機能する必要があります。そのため、Nvidia は CUDA を作成しました。これは正式には「並列コンピューティング プラットフォームおよびプログラミング モデル」とみなされます。CUDA および関連ハードウェア (「CUDA コア」) の詳細については、CUDA コアとは何か、およびそれらが PC ゲームをどのように改善するかについての記事をお読みください。
CUDA は Nvidia 独自のテクノロジであり、Nvidia GPU とのみ互換性があります。AMD のハードウェアに最も近い代替品は、OpenCL と Radeon Compute Platform です。各社のソリューションの比較について詳しくは、AMD コンピューティング ユニットと Nvidia CUDA コアに関する記事をご覧ください。
代替手段と比較して、CUDA はより成熟しており、パフォーマンスが高く、使いやすいと考えられています。したがって、ほとんどの開発者は CUDA のみをターゲットにしているため、ソフトウェアは Nvidia GPU のハードウェア機能のみを利用しています。それにはウィスパーも含まれます。
ウィスパーをダウンロードしてインストールする方法
残念ながら、Whisper はダウンロード、インストール、実行できるスタンドアロン アプリではありません。他のソフトウェアに依存しており、これらもインストールする必要があります。
Windows の場合、このガイドをシンプルにするために、Chocolatey を使用して、必要なソフトウェア パーツのほとんどをインストールします。Chocolatey の詳細については、Windows ソフトウェアをインストールする最も簡単な方法に関するガイドを確認してください。
Linux と Mac の場合、インストール プロセス (Windows パス変数と、作成する使いやすいバッチ ファイルを除く) は似ているはずです。
- Whisper をインストールして使用するには、PythonとそのPIPツールをインストールし、Windows の「パス」変数に追加する必要があります。詳細については、Windows、Mac、および Linux に Python PIP をインストールする方法に関する記事を参照してください。
- 次のコマンドを使用して、Chocolatey から FFMPEGをインストールします。また、Python バージョンを次のコマンドでインストールします。
choco install ffmpeg
pip3 install python-ffmpeg
- 最後に、Github ページから Whisper をインストールします。
pip3 install git+https://github.com/openai/whisper.git
Whisper の CUDA 対応バージョンの取得
Whisper は Nvidia GPU を使用していませんが、依存しているtorchパッケージは CUDA アクセラレーション バージョンを提供しています。「プレーン」バージョンの代わりにこれを使用すると、Nvidia GPU の助けを借りて、Whisper が文字起こしをより速く完了することができます。
Whisper で Nvidia GPU の CUDA コアを使用するには:
- 「バニラ」バージョンの torch が既にインストールされている場合は、アンインストールして残りの部分を消去します。
pip3 uninstall torch
pip cache purge
- torch の CUDA 対応バージョンを次のようにインストールします。
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Whisper が Nvidia GPU を使用できるかどうかを確認するには、次を使用します。 (default: cpu)の代わりに( default: cuda)が表示されます。
whisper --help | findstr -i pytorch
Torch のインストールに失敗した場合の対処方法
トーチのインストール中に「バージョンが見つかりません」というエラーが発生した場合は、現在のバージョンと並行して古いバージョンの Python をインストールする必要がある場合があります。
これを行うには、次のコマンドを使用します。
choco install python --version OLDER_VERSION --side-by-side
「OLDER_VERSION」を 3.10 などのバージョンに置き換えます。
次に、すべての「一般的な」Whisper コマンドにセカンダリ バージョンのパスを使用します (たとえば、単に「pip」ではなく「c:\Python310\Scripts\pip.exe」)。
声を録音する方法
任意の録音アプリを使用して、声を WAV または MP3 ファイルに変換できます。Windows にはこのようなアプリが含まれています。詳細については、Windows 10 ボイス レコーダー アプリの使用方法を参照してください。
より完全な機能を備えたオプションについては、Audacityを試してください。Audacity を使用して Windows および Mac でオーディオを録音する方法については、ガイドを参照してください。
Whisper で文字起こしを開始する方法
ウィスパーには使いやすい GUI はありませんが、使い方は非常に簡単です。
ギリシャ語の音声を含むファイルLatestNote.mp3がフォルダーc:\MyAudioFilesにあり、それを英語に翻訳してテキスト ファイルに書き起こしたいとします。
- まず、コマンド プロンプトまたはPowerShellを実行します。
- 次のコマンドを使用して、オーディオ ファイルが保存されている「ディレクトリを変更」します。
cd C:\MyAudioFiles
- 次のようにして、ファイルにウィスパーを解き放ちます。
whisper --model base --language gr --task translate LatestNote.mp3
処理が完了すると、テキスト ファイル (「LatestNote.mp3.txt」という名前) が同じフォルダーに表示されます。メモ帳などのテキスト エディタで開いて、翻訳されたテキストを表示します。
英語の書き起こしはさらに簡単なので、翻訳の例を使用しました。「–language」フラグと「-task」フラグを「失う」だけで済みます。したがって、プレーン トランスクリプションの場合、上記のコマンドは次のようになります。
whisper --model base LatestNote.mp3
Whisper はさまざまなオプションから 1 つを使用するため、「モデル」フラグが必要です。それらを拡張して、ニーズに最適なものを選択できるようにしましょう。
どのモデルを選択しますか?
Whisper はさまざまな言語モデルを提供しています。モデルが大きくなるほど精度が向上しますが、ハードウェア要件も高くなります。彼らです:
- 小さい。
- ベース。
- 小さい。
- 中くらい。
- 大きい。
英語を母国語とするほとんどの人は、小さなモデルまたは基本モデルで問題ないはずです。英語を母国語としない人は、smallやmediumなどの大きなモデルを使用すると、より良い結果が得られる場合があります。
ただし、中型および大型モデルには 8 GB 以上の VRAM (つまり、「GPU のメモリ」) が必要であることに注意してください。
それらのいずれかを選択するには、コマンドの「–model」スイッチの後にモデルを指定します。
whisper --model tiny/small/medium/large [file]
例えば:
whisper --model small My_Voice_Note.mp3
文字起こしを合理化する方法
音声を文字起こしするたびに Whisper コマンド全体を入力しなければならないのは、すぐに退屈になる可能性があります。プロセスを合理化するために、グローバルにアクセス可能なバッチ ファイルを作成しましょう。
- Windows エクスプローラーを実行し、C: ドライブにアクセスします。
- スクリプト用のフォルダーを作成し、そのパスをクリップボードにコピーします。
- Windows の [スタート] メニューで「パス」を検索し、[システム環境変数の編集] を選択します。
- YOUR_USERNAME のユーザー変数でPath変数を見つけます。それをダブルクリックして編集します。[新規] をクリックし、パスをスクリプト フォルダーに貼り付けます。[ OK]をクリックして変更を受け入れます。
- Windows エクスプローラーのスクリプト フォルダーに戻ります。そこに「wht.bat」という名前の新しいバッチ ファイルを作成します。その「中に」、次のコマンドを配置します。
whisper --model tiny --language en %1
- さらに 2 つのバッチ ファイル「whs」と「whm」を作成します。
- これを最初のスクリプト内に配置します。
whisper --model small --language en %1
- これを 2 番目の内部に配置します。
whisper --model medium --language en %1
おめでとうございます。音声ファイルで Whisper の小型モデル、小型モデル、中型モデルを簡単に使用するための 3 つのスクリプトが作成されました。音声ファイルをテキストに転記するには:
- Windows File Explorerでファイルを見つけます。
- 空の場所を右クリックし、 Open in Terminalを選択します。
- 次のコマンドを入力し、「wht」を「whs」または「wm」に置き換えて、小規模または中規模の言語モデルを使用します。
wht YOUR_AUDIO_FILE.mp3
ウィスパーで音速でタイピング
最も速いタッチタイピストでさえ、私たちの話す速度には太刀打ちできません。ただし、最近まで、入力する代わりに話すことは、ドキュメントの作成に最適ではありませんでした。
ほとんどの音声からテキストへのソリューションでは、平凡な結果が得られました。試してみる価値のあるいくつかの解決策を見つけることができましたが、それらは使い方が複雑で、費用がかかりました。ありがたいことに、ウィスパーはそれをすべて変えました。
上記の手順の後、単一のコマンドのみを使用して、音声を高精度で書き起こしまたは翻訳する準備が整うはずです。
コメントを残す