Google の最新 Gemini AI モデルが OpenAI の GPT-4o テクノロジーを上回る
Google の新しい Gemini-Exp-1114 モデルが AI ベンチマークの状況を揺るがす
Chatbot Arena は、クラウドソーシングによる AI ベンチマークに特化した著名なオープン プラットフォームとして登場しました。過去 2 年間、OpenAI のモデルはランキングを独占し、さまざまな AI 評価で一貫してトップの座を獲得してきました。Google の Gemini モデルや Anthropic の Claude モデルが特定のカテゴリで印象的な結果を示している一方で、OpenAI は主にこの分野で比類のない存在感を維持しています。
最近、Chatbot Arena はGoogle の実験モデル「Gemini-Exp-1114」を発表しました。この新しいモデルは厳しいテストを受け、過去 1 週間でコミュニティから 6,000 票以上を獲得し、OpenAI の最新モデルである ChatGPT-4o-latest (2024 年 9 月 3 日現在) と並んで 1 位にランクインしました。この Gemini モデルのイテレーションのスコアは 1301 から 1344 に大幅に上昇し、全体的なパフォーマンスで OpenAI の o1-preview モデルを上回りました。
ジェミニExp-1114の主な成果
Chatbot Arena のデータによると、Gemini-Exp-1114 は現在 Vision リーダーボードでトップに立っており、次のカテゴリでも 1 位を獲得しています。
- 数学
- クリエイティブライティング
- より長いクエリ
- 指示に従う
- マルチターンインタラクション
- ハードプロンプト
コーディング領域では、この新しいモデルは第 3 位を獲得しましたが、スタイル制御によるハード プロンプトでは印象的なパフォーマンスを示しています。コンテキストとして、OpenAI の o1-preview モデルは、コーディング効率とスタイル制御メトリックの両方で引き続きリードしています。勝率ヒートマップを分析すると、Gemini-Exp-1114 は GPT-4o-latest に対して 50%、o1-preview に対して 56%、Claude-3.5-Sonnet に対して 62% の勝率を達成していることがわかります。
最近の機能強化とパフォーマンス メトリック
Google は今年 9 月に Gemini 1.5 シリーズを発表し、MMLU-Pro スコアが約 7% 向上し、MATH および HiddenMath ベンチマークが 20% 大幅に改善されるなどの機能強化を披露しました。新しいモデルでは、ビジョンとコード関連のユースケース全体でも 2 ~ 7% の機能強化が反映されています。特に、応答の全体的な有用性が向上しており、Google は新しいモデルがより簡潔な回答を提供する傾向があることを強調しています。これらの更新されたモデルのデフォルトの出力長は、以前のモデルよりも約 5 ~ 20% 短くなりました。
Gemini-Exp-1114 モデルの結果を調べたり試してみたりすることに関心がある方は、こちらから詳細情報にアクセスできます。開発者は、Google AI Studio でこの最先端モデルをテストすることをお勧めします。近々 API 経由で利用可能になる予定です。
コメントを残す