アリババの最新 AI が複数のベンチマークテストで GPT-3.5、クロードを破る

2024/02/07

これは投資アドバイスではありません。著者は、言及されているどの銘柄にもポジションを持っていません。

2024 年が世界的な人工知能競争の好調なスタートを切る中、中国のテクノロジー大手アリババグループも、Qwen 人工知能モデルの最新バージョンを発表しました。世界で最もよく知られている AI チャットボットである OpenAI の ChatGPT とは別に、Meta の Llama や Amazon パートナーである Anthropic の Claude などの他のモデルは、消費者や企業がニーズに合わせて AI プラットフォームを選択する際に選択できるいくつかの選択肢です。

アリババの最新の Qwen イテレーションは Qwen 1.5 で、ソーシャルメディアプラットフォーム X で共有されたベンチマークによると、このモデルはいくつかのベンチマークスコアで ChatGPT と Claude の両方を上回っています。

アリババの Qwen 1.5 が、指導の流動性をテストする複数のベンチマークで Claude と ChatGPT を上回る

コンピューターやスマートフォン上で動作するオペレーティングシステムと同様に、人工知能モデルもソフトウェアの一部です。これにより、ソフトウェアエンジニアやアナリストがそのパフォーマンスを評価できるようになり、アリババの最新の Qwen 1.5 に関しては、Anthropic の Claude や OpenAI の ChatGPT を上回るパフォーマンスを示しているスコアもあります。

オペレーティングシステムをテストするベンチマークは、命令を処理してアプリケーションを実行する能力を評価し、人工知能モデルのベンチマークは通常、出力を生成するモデルの能力をテストすることを中心に展開します。

そのようなベンチマークの 2 つは MT-bench と Alapaca-Eval で、X で共有されたスコアは、Alibaba の Qwen 1.5 の亜種が ChatGPT と Claude を上回っていることを示しています。 MT ベンチは、事前に定義された一連の質問に答えるモデルの能力をテストします。この質問では、チャットボットとの差別化を図るだけでなく、2 者が急速にやり取りする厳しい会話環境でモデルが「立場を維持」できるかどうかも判断されます。お互いに。

ベンチマークスコアは、Qwen が MT ベンチで 4 番目に高いスコアラーであり、GPT-4 Turbo と最初の 2 つの GPT-4 リリース、つまりバージョン 0613 と 0314 に遅れをとっているだけであることを示しています。

アリババがQwen 1.5をリリース

デモ: https://t.co/goMcWMsIzT

最大のオープンソース Qwen1.5-72B-Chat は、MT-Bench と Alpaca-Eval v2 の両方で Claude-2.1、GPT-3.5-Turbo-0613 を上回る優れたパフォーマンスを示しますpic.twitter.com/50dNuUpEBx

— AK (@_akhaliq) 2024年2月5日

Alapaca-Eval は、参照モデルを使用して人間のインタラクションをエミュレートし、テスト対象の AI モデルがベースラインに沿った結果をもたらす程度を判断するベンチマークです。また、ユーザーにテストを追跡するためのリーダーボードも提供しており、今日のベンチマークでは、Qwen 1.5 の Alapaca-Eval のパフォーマンスが GPT-4 Turbo とニューヨークに拠点を置く HuggingFace の Yi-34B に遅れをとっているだけであることが示されています。

Qwen1.5 は、この種のオープンソースモデルとしては最大の 1 つであり、アリババの膨大なコンピューティングリソースによって支えられています。オープンソース AI は、オープンソースソフトウェアと同様に、そのコードをユーザーや開発者が利用できるようにして、ユーザーや開発者がモデルを理解し、独自のバリアントを作成できるようにします。今日のスコアにも含まれている Meta の Llama もオープンソースモデルです。

2024 年の初め、ウォール街や企業が AI に注目していることは有名であるメタ、マイクロソフト、アルファベットなどのメガキャップ技術大手の収益報告書はいずれも AI に焦点を当てているメタ社の責任者であるマーク・ザッカーバーグ氏は、電力供給のために今年数十万個の GPU の購入を目指している同幹部は同社の決算会見で、メタ社のコンピューティング能力を強化するという決定は、同社の能力不足につながった以前の見落としに基づくものだと説明した。

同様に、チップメーカーや設計会社であるTSMCとAMDの収益も、両社の経営陣がAIの将来に楽観的な見方を示している。TSMCの経営陣は、同社がAIのあらゆる需要を取り込むための安定した基盤を持っていると自信を持っている一方、AMDはAIが最終的には崩壊する可能性があると考えている。 10 年代の終わりまでに数千億ドルの価値があるようになる。

アリババの Qwen 1.5 が、指導の流動性をテストする複数のベンチマークで Claude と ChatGPT を上回る

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル