統計的に有意なテストにより、OpenAI の GPT-4 Turbo は冬休み中に特に遅延することが証明されました

統計的に有意なテストにより、OpenAI の GPT-4 Turbo は冬休み中に特に遅延することが証明されました

これは投資アドバイスではありません。著者は、言及されているどの銘柄にもポジションを持っていません。

この冬、OpenAI の最先端の大規模言語モデル (LLM) である GPT-4 Turbo に徹底的なタスクの実行を依頼しないでください。これは、LLM 愛好家によって行われた最近の統計的に有意なテストから容易に導き出せる結論です。

OpenAI は、GPT-4 Turbo はより徹底したトレーニングのおかげで、単一のプロンプト内に含まれる非常に複雑なタスクを処理できると主張しています。このモデルは、拡張されたトークン コンテキスト ウィンドウのおかげで、128,000 個のトークンを処理することもできます。これは、特定の LLM の入出力の豊富さまたは深さの尺度です。 。復習として、1,000 トークンはおよそ 750 単語に相当します。これは、OpenAI の最新製品が約 96,000 語の入力を処理できることを意味します。

最近、LLM 愛好家であるロブ リンチ氏が GPT-4 Turbo をその諺通りのペースでテストしました。まったく驚いたことに、LLM は、現在の月が 12 月であると考える場合と、5 月であると考えるよう促された場合とでは、短い応答を生成します。

具体的には、リンチは、今月が 5 月であると信じさせられたとき、GPT-4 Turbo からの 477 回のテスト実行で平均 4,298 トークンの出力を取得することができました。 12 月の LLM の平均生産量は 4,086 トークンと大幅に短く、これは約 5% の生産性の低下に相当します。

ウォートン大学のイーサン・モリック教授は、この矛盾の背後にある考えられる原因を解明しながら、休暇の多い12月には仕事を減らす人間の傾向からGPT-4ターボが学習したのではないかと考えている。これは、これらの LLM が、人間の有害なバイアスの侵入を防ぐための徹底的な努力にもかかわらず、トレーニング データの侵入により、人間のより奇妙な欠点の一部を依然として受け継いでいる可能性があることも示唆しています。

この開発は、OpenAI の GPT モデルが徐々に怠惰になり、完全な答えを与える代わりにショートカットに頼っていることを示唆する別の開発に続いて行われました。クエリに。いくつかの逸話では、ユーザーが LLM から完全な答えを引き出すために障害のあるふりをしていたことが示唆されています。状況は明らかに、OpenAI がホットフィックスを考案するよう促すほど深刻です。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です