ジム・ケラー氏が率いるチップメーカー Tenstorrent は、AI ワークロード向けの次世代 Wormhole プロセッサをリリースしました。同社は、手頃な価格で優れたパフォーマンスを提供することが期待されています。同社は現在、Wormholeプロセッサを1基または2基搭載できる2種類のPCIeカードと、ソフトウェア開発者向けのTT-LoudBoxおよびTT-QuietBoxワークステーションを提供しています。本日の発表はすべて開発者向けであり、Wormholeボードを商用ワークロードに使用しているユーザー向けではありません。
「より多くの開発者に当社の製品をお届けできることは、常に喜ばしいことです。Wormhole™カードを使用したリリース開発システムは、開発者がマルチチップAIソフトウェアを拡張・開発する上で役立ちます」と、TenstorrentのCEO、ジム・ケラー氏は述べています。今回の発売に加えて、第 2 世代製品である Blackhole のテープアウトとパワーアップの進捗状況にも期待を感じています。」

各Wormholeプロセッサは72個のTensixコア(うち5個は様々なデータ形式のRISC-Vコアをサポート)と108MBのSRAMを搭載し、1GHzで262 FP8 TFLOPSの性能を発揮し、熱設計電力は160Wです。シングルチップのWormhole n150カードは、12GBのGDDR6ビデオメモリを搭載し、288GB/sの帯域幅を備えています。
Wormholeプロセッサは、多様なワークロードのニーズに応える柔軟なスケーラビリティを提供します。4枚のWormhole n300カードを搭載した標準的なワークステーション構成では、プロセッサを1つのユニットに統合することができ、ソフトウェア上では統合された広範なTensixコアネットワークとして表示されます。この構成により、アクセラレータは同じワークロードを4人の開発者で分割して処理することも、最大8つの異なるAIモデルを同時に実行することも可能です。このスケーラビリティの重要な特徴は、仮想化を必要とせずにローカルで実行できることです。データセンター環境では、Wormholeプロセッサはマシン内部の拡張にはPCIe、外部拡張にはイーサネットを使用します。
パフォーマンスの面では、Tenstorrent のシングルチップ Wormhole n150 カード (72 個の Tensix コア、1 GHz 周波数、108 MB SRAM、12 GB GDDR6、288 GB/s 帯域幅) は 160W で 262 FP8 TFLOPS を達成し、デュアルチップ Wormhole n300 ボード (128 個の Tensix コア、1 GHz 周波数、192 MB SRAM、集約 24 GB GDDR6、576 GB/s 帯域幅) は 300W で最大 466 FP8 TFLOPS を実現します。
300Wで466 FP8 TFLOPSという性能を理解するために、AI市場のリーダーであるNvidiaがこの熱設計電力で提供している性能と比較してみましょう。NvidiaのA100はFP8をサポートしていませんが、INT8をサポートしており、ピーク性能は624 TOPS(スパース時は1,248 TOPS)です。一方、NvidiaのH100はFP8をサポートし、300Wで1,670 TFLOPS(スパース時は3,341 TFLOPS)のピーク性能に達します。これはTenstorrentのWormhole n300とは大きく異なります。
しかし、大きな問題が一つあります。TenstorrentのWormhole n150の小売価格は999ドルですが、n300は1,399ドルです。ちなみに、Nvidia H100グラフィックカード1枚の小売価格は、数量にもよりますが3万ドルです。もちろん、Wormholeプロセッサを4枚、あるいは8枚搭載しても、H300 1枚と同等の性能を発揮できるかどうかは分かりませんが、TDPはそれぞれ600Wと1200Wです。
Tenstorrent は、カードに加えて、アクティブ冷却機能を備えたより手頃な価格の Xeon ベースの TT-LoudBox の 4 つの n300 カードや、EPYC ベースの Xiaolong 液体冷却機能を備えた高度な TT-QuietBox など、開発者向けに構築済みのワークステーションも提供しています。
投稿日時: 2024年7月29日