Stable Audio AI とは何か、そしてその使い方

2024/02/20

人工知能は広く普及しており、画像、テキストベースのコンテンツ、さらにはサウンドや音楽の生成など、幅広い目的に使用されています。そして、Stable Audio AI は、現在利用可能なオーディオ制作用の最高の AI モデルの 1 つです。

このガイドでは、この AI プラットフォームとは何か、またそれを使用して楽器を必要とせずにオリジナルのオーディオを作成する方法について説明します。

安定したオーディオ AI とは何ですか?

Stable Audio AI は、ユーザーが提供したプロンプトに基づいて画像を生成できる Stable Diffusion AI で最もよく知られている Stability AI によって開発された AI モデルです。

Stable Audio は、高度な人工知能技術 (特に拡散モデル) を使用して、テキストの説明から音声を作成します。欲しい音楽やサウンドの種類を入力すると、数秒以内にそれらが生成されます。

Stable Audio AI は、Stability AI のオーディオ研究所である Harmonai によって作成されており、ユーザーはプロンプトを使用してオリジナルのオーディオを生成できます。

このオーディオ生成 AI モデルが非常に印象的なのは、主要なデジタルミュージックライブラリである AudioSparx からの 19,500 時間のオーディオデータでトレーニングされていることです。トレーニングには 800,000 を超えるオーディオファイルが使用されました。これにより、AI は、Nvidia A100 GPU を使用して 95 秒間の 44.1 kHz ステレオ品質のオーディオを 1 秒未満で生成できるようになりました。

同社の画像生成用の Stable Diffusion AI と同様の潜在的な拡散テクノロジーを使用して、これを実現しています。また、他のオーディオ生成 AI モデルとは異なり、Stability Audio AI を使用してさまざまな長さのサウンドを作成できます。

Stable Audio AI を使用すると、単一の楽器のサウンド、環境音、さらには完全なアンサンブルのサウンドを生成できます。次に、それを使用してオーディオを生成する方法を理解しましょう。

Stable Audio AI を始めましょう

人工知能を使用してオーディオを生成する Stable Audio AI を無料で試すことができますが、これには Stable Audio Web サイトでアカウントを作成する必要があります。無料アカウントには、一定の制限もあります。

ブラウザを起動して、Stable Audio の Web サイトにアクセスします。そこに着いたら、右上隅にある「無料で試してみる」と書かれた青いカプセルの形のボタンをクリックします。

ボタンをクリックすると、Stable Audio AI を使用するために必要なアカウントを作成できる新しいページが表示されます。電子メールアドレスとパスワードを入力して新しいアカウントを設定するか、Google アカウントを通じてログインできます。

Google アカウントを使用してサインインすることを選択した場合は、アカウントの詳細を Web サイトと共有することを Google に許可する必要があります。 Google アカウントのユーザー名とパスワードを入力した後、[続行] ボタンをクリックして必要な承認を与えます。

サインインすると、Stable Audio AI プラットフォームのホームページが表示されます。これには、続行するために同意する必要がある利用規約が含まれています。ここから Stable Audio ニュースレターにサインアップすることもできます。「利用規約を読んで同意します」と表示されている場所の横にあるボタンをクリックし、必要に応じて下のボタンをクリックしてニュースレターを購読します。次に、下部にある「次へ」ボタンをクリックします。

利用規約に同意すると、Stable Audio ダッシュボードが表示され、プロンプトを使用してオリジナルのオーディオを生成できます。

安定したオーディオ AI の使用

ページの左上のセクションでは、オーディオ生成のプロンプトを入力できます。

Hard rock, concert promotion, metal, 180 bpmボックスに次のようなプロンプトを入力できます。次に、下部にある「生成」ボタンをクリックしてオーディオの作成を開始します。

音声を生成するもう 1 つの方法は、プロンプトセクションの下にある「プロンプトライブラリ」から既製のプロンプトを使用することです。このライブラリでは、さまざまな音声プロンプトスタイルにアクセスできます。これを行うには、「なし」というラベルの付いたカプセル型のボタンをクリックします。これにより、オーディオに追加するために選択できるさまざまなスタイルが含まれるライブラリが開きます。

ライブラリから音声プロンプトスタイルのいずれかを選択するには、そのスタイルをクリックするだけです。ライブラリの上のプロンプトセクションには、スタイルに含まれるプロンプトが表示されます。選択したスタイルには再生アイコンが表示され、プロンプトライブラリボタンのラベルも選択したスタイルを反映して変更されます。

「プロンプトライブラリ」の下に、オーディオ生成プロセスに使用される AI モデルが表示されます。モデル名 (この場合は「Stable-audio-audiosparx-v1-0」) をクリックすると、利用可能なすべてのモデルが表示されます。現在利用可能な追加モデルはベータ版の 1 つだけです。ベータ AI モデルを使用するには、Pro プランにアップグレードする必要があります。

次は「Duration」セクションで、生成されるオーディオの長さを制御できます。下向きの矢印をクリックすると持続時間が減少し、上向きの矢印をクリックすると持続時間が増加します。 Stable Audio の無料バージョンを使用すると、45 秒の長さのオーディオを生成できます。 Pro バージョンにアップグレードすると、1 分 30 秒の長さのオーディオを生成できます。

左側の最後の項目は、オーディオをカスタマイズするために使用できるオプション「追加」です。「+」ボタンをクリックすると、現在「ステップ」、「結果の数」、「シード」、「プロンプトの強さ」などの利用可能なオプションが表示されます。

これらの追加オプションにはそれぞれ、カスタマイズできる設定があります。たとえば、「ステップ」オプションをクリックすると、AI が音声を生成するために必要なステップ数を増やすことができます。デフォルトでは 50 ステップが追加されますが、表示されたボックスにステップ数を入力することで 100 まで増やすことができます。

下部にある「リセット」ボタンをクリックすると、デフォルト値に戻すことができます。余分なものを完全に削除したい場合は、ステップ数を入力するボックスの横にある「X」ボタンをクリックします。

完了したら、「生成」ボタンをクリックすると、安定したオーディオがオーディオの生成を開始します。あるいは、ステップを削除して、オーディオ生成のランダム性を制御する「シード」オプションなどの別の追加機能を使用することもできます。デフォルトでは、このオプションは「ランダム」に設定されています。これは、AI モデルがさまざまなオーディオ配置を使用してオーディオを生成することを意味します。「ランダム」ラベルをクリックして「222222」のような値を入力すると、AI が毎回同じ配置を使用するように、別の値を入力できます。

その他の追加機能には、「結果の数」と「即時の強さ」が含まれます。前者は、AI がプロンプトに対して返すトラック数 (最大 5) を制御できる Pro 機能で、無料版では使用できません。ただし、「プロンプトの強さ」オプションをクリックして試すことができます。これにより、生成されたオーディオが提供されたプロンプトにどれだけ近づくかを制御するスライダーが表示されます。デフォルトでは 80% に設定されていますが、スライダーを左右にドラッグして、必要に応じて強度を増減できます。

プロンプトの強さを調整したら、「生成」ボタンをクリックして AI に音声の作成を開始するように指示します。 Stability Audio AI ページの右上にも、いくつかの項目が含まれています。 1 つ目は、無料ユーザーが所有するクレジット数を示す音符記号です。オーディオを生成できるのはクレジットがある限りのみで、毎月 20 クレジットを取得できます。次に、Pro バージョンにアップグレードできるボタン、アカウントの詳細を確認するオプション、追加オプションを含むハンバーガーメニューがあります。

「Pro にアップグレード」ボタンをクリックすると、利用可能な料金プランが表示されます。無料プランのほかに、Pro、Studio、および Max プランから選択できます。料金は、それぞれ月額 11.99 ドル、月額 29.99 ドル、月額 89.99 ドルです。「無料」プランでは毎月 20 トラックを生成できますが、「プロ」プランでは 500 トラックが生成できます。これは、「スタジオ」プランでは 1,350、「マックス」プランでは 4,500 まで増加します。さらに、「フリー」プランのトラックの長さは 45 秒ですが、他のすべてのプランでは 90 秒です。「無料」プランには個人用ライセンスが付属しますが、他のオプションでは Creator ライセンスが取得されます。

アップグレードボタンの横にあるオプションには、Stable Audio AI プラットフォームのアカウントの詳細が表示されます。それをクリックすると、現在のプランとそのプランが提供するすべての内容が表示されます。

プロンプトを改良する

プロンプトを調整することで、Stability Audio が提供する出力を微調整できます。生成 AI を使用する場合、プロンプトが優れているほど、出力も向上します。プロンプトを改善する方法をいくつか紹介します。

出力が電子的またはデジタル的に聞こえる場合は、プロンプトに「バンド」または「ライブ」などの単語を使用することを検討してください。
プロンプトに「44.1kHz」、「高品質」、「ステレオ」などの単語を含めることで、生成される出力の品質を向上できる場合があります。
出力を強化するには、トラック内の主要な楽器の名前の後に「Solo」という単語を使用します。たとえば、主な楽器がバイオリンの場合、プロンプトで「Solo Violin」を使用できます。

Stability Audio AI を使用すると、プロンプトを使用するだけで印象的なオーディオトラックを簡単に生成できます。初心者の場合、無料プランはモデルを試すのに最適な方法ですが、プロのミュージシャンは有料プランにアップグレードして、プラットフォームが提供するより高度な機能をチェックすることができます。

安定したオーディオ AI とは何ですか?

Stable Audio AI を始めましょう

安定したオーディオ AI の使用

プロンプトを改良する

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル