イーロン・マスクの Grok AI は、GPT-4 を除く、数学の難問に答える際に他のすべてのモデルを骨抜きにする
これは投資アドバイスではありません。著者は、言及されているどの銘柄にもポジションを持っていません。
xAI が Grok と呼ばれる最初の大規模言語モデル (LLM) を発表する準備をしていたとき、イーロン・マスクは、生成 AI モデルが「いくつかの重要な点で」「現在存在する中で最高」であると大胆に宣言しました。今、私たちはついに証明するデータを手に入れました。この主張。
トロント大学の研究者であるキーラン・パスター氏は最近、実施された数学試験で多くの AI モデルをテストすることで、その諺にあるようなペースを達成しました。データ分析の用語では、保留された質問とは、AI モデルのトレーニングに使用されるデータセットの一部ではない質問であることに留意してください。したがって、特定の LLM は、そのような刺激に対応するために、事前のトレーニングと問題解決スキルを活用する必要があります。次に、パスター氏が各モデルの応答を手作業で採点しました。
上記のスニペットから明らかなように、Grok は、OpenAI の GPT-4 を除く、Anthropic の Claude 2 を含む他のすべての LLM よりも優れたパフォーマンスを示し、合計スコアは 59 パーセント、GPT-4 の 68 パーセントを獲得しました。
次に、Paster 氏は、xAI による GSM8k でのさまざまな LLM のテスト(中学校向けの算数文章問題のデータセット) を利用して、実施された数学試験でのこれらの LLM の成績を GSM8k での成績と比較してプロットしました。
興味深いことに、OpenAI の ChatGPT-3.5 は、GSM8k では Grok よりも高いスコアを獲得していますが、実施された数学試験では Grok のスコアの半分しか確保できませんでした。Paster 氏は、この結果を利用して、GSM8k での ChatGPT-3.5 の優れたパフォーマンスは単に過剰学習の結果であるという結論を正当化しています。過学習は、LLM がトレーニングに使用される入力データに対しては正確な結果を与えるが、新しいデータに対しては正確な結果を与えないときに発生します。
過学習に苦しむ可能性のあるすべてのモデルを除外すると、Grok は GSM8k で Claude 2 と GPT-4 に次ぐ見事な 3 位にランクされます。これは、Grok の推論能力が非常に強力であることを示唆しています。
もちろん、これらのモデルを比較する際の重大な制限は、GPT-4、Claude 2、および Grok のトレーニングに使用されたトレーニング パラメーターの数に関する情報が欠如していることです。これらのパラメータは、LLM の学習プロセスを集合的に制御する構成と条件です。一般に、パラメーターの数が増えるほど、AI モデルはより複雑になります。
もう一つの特徴として、Grok は明らかにニュースに対する比類のない生来の「感覚」を持っています。LLM のベータ テスターの初期の印象によると、xAI の Grok は速報性を帯びる可能性のあるさまざまなバイアスを区別できます。これはおそらく、X から供給されたデータに対する Grok のトレーニングの直接の結果です。
コメントを残す