ジム・ケラー氏率いる半導体企業Tenstorrentは、AIワークロード向けの次世代プロセッサ「Wormhole」を発表した。同社は、このプロセッサが手頃な価格で優れた性能を発揮すると期待している。同社は現在、Wormholeプロセッサを1つまたは2つ搭載できる2種類のPCIeカードに加え、ソフトウェア開発者向けのワークステーション「TT-LoudBox」と「TT-QuietBox」を提供している。本日発表された製品はすべて開発者向けであり、Wormholeボードを商用ワークロードに使用しているユーザー向けではない。
「より多くの製品を開発者の皆様にお届けできることは、常に喜ばしいことです。当社のWormhole™カードを使用したリリース開発システムは、開発者の皆様がマルチチップAIソフトウェアを拡張・開発するのに役立ちます」と、TenstorrentのCEOであるジム・ケラー氏は述べています。今回の発表に加え、第2世代製品であるBlackholeのテープアウトと電源投入における進捗状況にも期待を寄せています。
各ワームホールプロセッサは、72個のTensixコア(うち5個は様々なデータフォーマットのRISC-Vコアをサポート)と108MBのSRAMを搭載し、1GHz動作時で262FP8TFLOPSの演算性能、160Wの熱設計電力を実現しています。シングルチップのワームホールn150カードは、12GBのGDDR6ビデオメモリを搭載し、288GB/sの帯域幅を備えています。
Wormholeプロセッサは、多様なワークロードのニーズに対応できる柔軟な拡張性を提供します。標準的なワークステーション構成では、4枚のWormhole n300カードを使用することで、プロセッサを1つのユニットに統合し、ソフトウェア上では統一された広帯域のTensixコアネットワークとして認識させることができます。この構成により、アクセラレータは同じワークロードを4人の開発者に分割して処理したり、最大8つの異なるAIモデルを同時に実行したりすることが可能になります。この拡張性の重要な特徴は、仮想化を必要とせずにローカルで実行できることです。データセンター環境では、Wormholeプロセッサはマシン内部の拡張にはPCIeを、外部拡張にはイーサネットを使用します。
性能面では、TenstorrentのシングルチップWormhole n150カード(72個のTensixコア、1GHzの周波数、108MBのSRAM、12GBのGDDR6、288GB/sの帯域幅)は160Wで262FP8TFLOPSを達成し、デュアルチップWormhole n300ボード(128個のTensixコア、1GHzの周波数、192MBのSRAM、合計24GBのGDDR6、576GB/sの帯域幅)は300Wで最大466FP8TFLOPSを実現します。
300Wで466 TFLOPSのFP8性能を分かりやすく説明するために、AI市場のリーダーであるNvidiaがこの熱設計電力で提供している製品と比較してみましょう。NvidiaのA100はFP8をサポートしていませんが、INT8をサポートしており、ピーク性能は624 TOPS(スパース時は1,248 TOPS)です。一方、NvidiaのH100はFP8をサポートしており、300Wでピーク性能1,670 TFLOPS(スパース時は3,341 TFLOPS)に達します。これはTenstorrentのWormhole n300とは大きく異なります。
しかし、大きな問題が一つあります。TenstorrentのWormhole n150は999ドルで販売されているのに対し、n300は1,399ドルです。これに対し、Nvidia H100グラフィックカード1枚の価格は、数量にもよりますが30,000ドルです。もちろん、Wormholeプロセッサを4個または8個搭載した場合、H300 1枚と同等の性能を発揮できるかどうかは分かりませんが、それぞれのTDPは600Wと1200Wです。
Tenstorrentはカードに加えて、開発者向けにプリビルドワークステーションも提供しており、より手頃な価格のアクティブ冷却機能を備えたXeonベースのTT-LoudBoxには4枚のn300カードが搭載され、EPYCベースのXiaolong)液体冷却機能を備えた高度なTT-QuietBoxも用意されている。
投稿日時:2024年7月29日
