Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
RK3588でエッジAIプロジェクトに取り組んでいるとします。カメラのビデオストリームは、リアルタイムの顔認識と車両検出を実行する必要があり、UI表示、データアップロード、ビジネスロジック処理もサポートする必要があります。フレーム内にオブジェクトが多いとフレームドロップが発生し、大きなモデルがスムーズに実行されず、温度が急上昇することに気づきます。
この時点で、人々は通常こう言います。「あなたのモデルは大きすぎます。RK3588の6TOPSでは足りません。」
しかし、本当に計算能力の不足なのでしょうか?6TOPSのNPUが、4TOPSのモデルを実行する際に、なぜフレームドロップやラグが発生するのか疑問に思ったことはありませんか?その答えは、NPUの計算能力の3つの次元にあります。ピークパフォーマンス(TOPS)、精度(INT8/FP16)、および効率(帯域幅)。さまざまなチップがNPUの仕様を強調しており、主要なパラメータが目立って表示されています。NPU計算能力:X TOPS。例としては、RK3588-6TOPS、RK3576-6TOPS、RK1820-20TOPS、Hi3403V100-10TOPS、Hi3519DV500-2.5TOPS、Jetson Orin Nano-20/40TOPS、Jetson Orin NX-70/100TOPSなどがあります...TOPSとは何ですか?なぜ誰もがそれについて話しているのですか?テラ:10¹²を表します。1秒あたりの演算数:NPUが1秒間に実行できるAI演算の総数を指します。簡単に言うと、1 TOPSは、NPUが1秒間に1兆(10¹²)回の演算を実行できることを意味します。TOPSはどのように計算されますか?
MACユニットの総数が、ニューラルネットワーク計算の核心です。畳み込み層と全結合層では、主な計算は入力データを重みで乗算し、その結果を合計することを含みます。
MACユニットが多ければ多いほど、NPUが1つのクロックサイクルで完了できる計算量も大きくなります。クロック周波数:NPUチップとそのMACユニットが1秒間に動作するサイクル数を決定します(ヘルツ、Hzで測定)。周波数が高いほど、MACアレイは単位時間あたりにより多くの乗算累算演算を実行できます。メーカーがTOPSを発表する際、NPUのピーク動作周波数(つまり、達成可能な最大周波数)を使用します。
MACあたりの演算数:完全なMAC演算には、実際には1回の乗算と1回の加算が含まれます。従来のFLOPS(1秒あたりの浮動小数点演算数)のカウント方法に合わせるために、多くの計算基準では、1回のMAC演算を2つの基本演算(乗算に1回、加算に1回)としてカウントします。精度係数:NPUのMACユニットは、低精度データ(例:INT8)の処理に最適化されています。
![]()
TOPSはピーク時の理論的な計算能力を測定します。実際のアプリケーションでは、データ伝送、メモリの制約、モデル構造などの要因により、NPUの実際の有効な計算能力は、このピーク値よりも低いことがよくあります。
計算能力は速度に関係し、精度は「細かさ」に関係します。
計算能力はNPUの実行速度を示し、計算精度はNPUの動作の細かさを示します。精度はNPUのパフォーマンスのもう1つの重要な次元であり、計算中に使用されるビット数とデータの表現範囲を決定します。
同じTOPSレベルでは、INT8の実際の計算速度はFP32よりもはるかに高速です。これは、NPUのMACユニットが一度に多くの8ビットデータを処理し、より多くの演算を実行できるためです。メーカーが主張するNPU TOPSは、通常、INT8精度に基づいています。比較を行う際は、同じ精度でTOPSを比較していることを確認してください。
高精度(通常はトレーニングに使用)FP32(単精度浮動小数点、32ビット):最大の数値範囲と精度を提供します。従来のGPUおよびPC計算で一般的に使用されます。モデルは、精度を確保するために、通常、トレーニングフェーズ中にFP32を採用します。
FP16/BF16(半精度浮動小数点、16ビット):データ量を半分に減らしながら、一定の精度を維持し、計算の高速化とメモリの節約を可能にします。低精度(通常は推論に使用)
INT8(8ビット整数):現在、エッジ側のNPUの推論パフォーマンスを評価するための業界標準です。モデルの重みと活性化値を高精度(例:FP32)から8ビット整数に変換するプロセスは、量子化と呼ばれます。
INT4(低ビット幅):消費電力とレイテンシに対する非常に高い要件に対応し、モデルの精度損失を制御するためのより高い要求を課します。
![]()
NPUが20 TOPS(INT8)を主張しているのを見たら、次のことを理解する必要があります。
ピーク計算能力は1秒あたり20兆回の演算です。
この計算能力は、8ビット整数(INT8)精度で測定されます。これは、主にAI推論(画像認識、音声処理など)に使用され、トレーニングには使用されないことを意味します。
![]()