in

Cerebras Systemsが、大規模言語モデルにプッシュボタン式の容易さとリニアなパフォーマンス・スケーリングをもたらすWafer-Scale Clusterを発表

カリフォルニア州サニーベール–(BUSINESS WIRE)–(ビジネスワイヤ) — 人工知能(AI)コンピューティングの高速化のパイオニアであるCerebras Systemsは、本日、Cerebras Wafer-Scale Clusterを発表しました。これは、数億のAI最適化コンピュートコアに対してほぼ完璧なリニア・スケーリングを実現し、分散コンピュートの悩みを回避することができるものです。Wafer-Scale Clusterでは、ラップトップ上で動作するJupyterノートブックから、わずかなキー操作で最大規模の言語モデルも配布することができます。これは、グラフィック・プロセッシング・ユニット(GPU)のクラスタによる数ヶ月に及ぶ骨の折れる作業を置き換えるものです。

Cerebras SystemsのCEO兼共同創業者のアンドリュー・フェルドマンは、「今日、大規模な言語モデルを学習する際の根本的な制限要因は、AIではありません。分散コンピューティングです。これらのモデルを何千もの グラフィック・プロセッシング・ユニットに配置するという課題と、そのために必要な分散コンピューティングの専門知識の希少性が、我々の業界の発展を妨げているのです。私たちはこの課題を解決しました。分散コンピューティングに必要な痛みを伴うステップを排除し、代わりにAIに最適化されたCS-2コンピュートへのプッシュボタンによる作業割り当てを、ほぼ直線的な性能スケーリングで実現しました」と、述べています。

大規模言語モデル(LLM)は、ヘルスケアやライフサイエンスエネルギー金融サービス、輸送、エンターテイメントや他の、あらゆる産業に変革をもたらしつつあります。しかし、従来のハードウェアで大規模なモデルを学習させることは困難であり、時間がかかるため、一部の組織でしか成功した例がありません。トレーニングが行われるまでに、数ヶ月に及ぶ複雑な分散コンピューティングが必要です。実際、このようなモデルのトレーニングは非常に珍しく、トレーニングの成功は論文に値すると見なされることが多いです。

Cerebras Wafer-Scale Clusterは、最大のLLMをサポートするクラスターを迅速、簡単、容易に構築することが可能です。Cerebrasは、データ並列処理のみを使用することにより、分散コンピューティングの問題を回避します。その代わりに、Cerebras Wafer-Scale Clusterは、プッシュボタンで計算を割り当て、1台のCS-2から最大192台のCS-2システムまでリニアにパフォーマンスを拡張することを可能にします。Wafer-Scale Clusterは、最大規模のモデルのスケーリングを非常に簡単にします。ラップトップのデジタルノートブックから、GPT-3のような最大のLLMをCS-2のクラスタに1回のキー操作で広げ、学習させ、その結果を評価することができるのです。1B、20B、175Bのパラメータモデルを切り替えるのも同様で、LLMを85万AIコア(1 x CS-2)、340万コンピュートコア(4 x CS-2)、1360万コア(16 x CS-2)に割り当てることも容易です。これらのアクションはそれぞれ、グラフィック・プロセッシング・ユニットのクラスタ上で数ヶ月の作業を要するものでした。

Cerebrasの新しいWafer-Scale Clusterの秘訣は、独自の方法でデータ並列処理を使用することにあります。データ並列は、すべてのAI作業において望ましいアプローチです。しかし、データ並列化には、最大層の行列乗算を含むすべての計算が1つのデバイスに収まり、すべてのパラメータがデバイスのメモリに収まることが必要になります。LLMでこの2つの特性を実現できるのは、グラフィック・プロセッシング・ユニットではなく、CS-2だけです。

Cerebras WSE-2は、これまでに作られた中で最大のプロセッサーです。最大GPUの56倍、コア数123倍、オンチップメモリ1,000倍、メモリ帯域12,000倍、ファブリック帯域45,000倍を有します。WSE-2はディナープレートほどの大きさで、最大のグラフィック・プロセッシング・ユニットは切手ほどの大きさです。

WSE-2の巨大なサイズと計算機資源により、Cerebrasは最大級のニューラルネットワークの最大レイヤーを1つのデバイスに収めることができます。実際、WSE-2は、既存の最大規模の自然言語処理(NLP)ネットワークの最大層の1,000倍もの大きさの層を搭載することができます。つまり、複数のプロセッサーに分散して作業を行う必要がないのです。小型のグラフィック・プロセッシング・ユニットでは、日常的に作業を分割し、複数のプロセッサに分散させる必要があります。

MemoryXにより、Cerebrasはオフチップ・メモリのようなペナルティを負わずに、パラメータ・ストレージと計算を分離することができます。モデル・パラメーターのストレージはMemoryXに、演算はCS-2に搭載されています。MemoryXは、計算をメモリから分離することで、パラメータとオプティマイザの状態をほぼ無制限に保存することが可能です。

MemoryXは、アクティベーションが存在するCS-2に重みをストリーミングします。逆に、CS-2は勾配をストリームバックします。MemoryXは、これらの値と保存されているオプティマイザ・パラメータを組み合わせて、次のトレーニング反復のためのウェイト更新を計算します。このプロセスは、トレーニングが完了するまで繰り返されます。MemoryXは、1台のCS-2で数兆個のパラメータを持つモデルをサポートすることができます。

MemoryXが膨大なパラメータストレージ機能を追加する一方で、SwarmXはMemoryXとCS-2のクラスタを接続し、CS-2のスケールアウトとクラスタでの厳密なデータ並列処理を可能にします。 SwarmXはブロードキャスト・リデュース・ファブリックを形成しており、MemoryXに格納されたパラメータはハードウェアで複製され、SwarmXファブリックを経由して複数のCS-2にブロードキャストされます。SwarmXファブリックは、CS-2から戻ってきた勾配を低減し、単一の勾配ストリームをMemoryXに提供します。

CS-2、MemoryX、SwarmXをベースにしたCerebras Wafer-Scale Clusterは、数十億、数百億、数千億、数兆のパラメータを持つモデルを厳密に線形スケーリングできるAIコンピュートの唯一のクラスターです。1台のCS-2から2台のCS-2へ移行した場合、学習時間は半分に短縮されます。1台のCS-2から4台のCS-2になると、学習時間は1/4になります。これはクラスタコンピューティングでは異例のことで、非常に高いコスト効率と電力効率を実現しています。GPUクラスタと異なり、Cerebrasクラスタでは、ユーザーが計算機を増やせば増やすほど、性能がリニアに向上していきます。

Cerebrasは、北米、アジア、ヨーロッパ、中東に顧客を持ち、グラクソ・スミスクラインアストラゼネカTotalEnergiesnferenceアルゴンヌ国立研究所ローレンス・リバモア国立研究所ピッツバーグ・スーパーコンピューティングセンターライプニッツ・スーパーコンピューティング・センター国立スーパーコンピュータ応用研究所エディンバラ・パレルコンピューティングセンター東京エレクトロン デバイスなど、企業、政府、高性能コンピューティング分野で増え続ける顧客に業界トップのAIソリューションを提供しています。

Cerebras Wafer-Scale Clusterは即時ご購入頂けます。Cerebras Wafer-Scale Clusterの詳細については、https://www.cerebras.net/product-cluster/ をご覧ください。

セレブラスシステムズについて

Cerebras Systemsは、先駆的なコンピュータキテクト、コンピュータ科学者、ディープラーニング研究者、あらゆるタイプのエンジニアからなるチームです。我々は、人工知能の作業を現在の技術水準を超えて3桁の速さで加速させる新しいクラスのコンピュータを構築するために結集しました。当社の主力製品であるCS-2システムには、世界最大のプロセッサーである85万コアのCerebras WSE-2を搭載しており、お客様のディープラーニング作業をグラフィック・プロセッシング・ユニットよりも桁違いに加速させることが可能です。

本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。

Contacts

メディア問い合せ先:
Kim Ziesemer

Email: pr@zmcommunications.com