# 高精度かつ高度なADASの構築に貢献する車載向け 低消費電力DCNNハードウェアアクセラレーター

Low Power Consumption Deep Convolutional Neural Network Accelerator for ADAS

石垣 雄太朗 ISHIGAKI Yutaro 田辺 健 TANABE Ken 田邉 靖貴 TANABE Yasuki

自動車の安全な運転操作を実現する先進運転支援システム(ADAS)では、深層学習によるAI技術の導入、特に深層畳 み込みニューラルネットワーク(DCNN)処理を適用した認識・識別技術が注目されている。しかし、DCNN処理は、膨大 な演算量とデータ入出力量を必要とするため、これまで、消費電力への要求が厳しい車載システムへの採用は困難であった。 東芝デバイス&ストレージ(株)は、メモリーへのアクセス回数とデータ入出力量を削減することにより、DCNN処理を 効率的に実行する車載向けハードウェアアクセラレーター(HWA)を開発し、リアルタイムかつ低消費電力でDCNN処理を

実現できることを確認した。

Attention has been increasingly focused on the introduction of artificial intelligence (AI) technologies, particularly recognition and classification technologies applying deep convolutional neural networks (DCNNs), that can play a key role in realizing the safety of automobile driving operations using advanced driver assistance systems (ADAS). However, as DCNN processing involves a huge number of calculations and massive volumes of data, it is difficult to apply it to automotive systems with limited power consumption.

To overcome this problem, Toshiba Electronic Devices & Storage Corporation has developed a real-time hardware accelerator (HWA) with low power consumption for automotive applications. This HWA makes it possible to efficiently implement DCNN processing by achieving reductions in the number of memory accesses and the volume of data.

#### 1. まえがき

自動車の安全な運転操作を実現するため、衝突被害軽減 ブレーキといった ADASを搭載した車両が増えている。人 間が主に視覚情報に基づいて自動車を運転しているのと同 じように、カメラ画像を入力とした画像認識情報の利用は、 ADASの機能拡充に欠かせない。

近年,深層学習によるAI技術の進展,特に画像認識に 特化したDCNN処理を適用することで,画像認識の性能が 飛躍的に向上しており,高精度かつ高度なADASを構築す るためにDCNN処理の適用が注目されている。しかし,そ の処理には膨大な演算量とデータ入出力量が必要で,演 算システムの消費電力が大きくなるという問題があった。例 えば,DCNN処理の研究に広く利用されている汎用GPU (Graphic Processing Unit)の消費電力は,100 W以上 にも及ぶ。一方,車載システムには高い信頼性が求められ, 厳しい温度条件下でも,故障率の高い冷却ファンを用いず に動作できる半導体製品が要求される。このため,発熱を 抑えつつ,DCNN処理を低消費電力で実現することが求め られる。

東芝デバイス&ストレージ(株)は、この要求に応えるため、消費電力の増大につながるメモリーへのアクセス回数と



**図1. DCNN処理による画像セグメンテーションの例** DCNN処理による高精度かつ高度な画像認識により,道路両端の路側帯 を示す白線がない道路でも走路の検出が可能になった。 Example of image segmentation using DCNN

データ入出力量を削減し、DCNN推論処理演算を効率的 に実行できるHWA(以下,DCNN HWAと略記)と、そ の専用ツールを開発した。これにより、リアルタイムでの DCNN処理を、冷却ファンなしかつ低消費電力で実現し た。ここでは、今回開発したDCNN HWAと専用ツールの 概要について述べる。

#### 2. ADASへのDCNN処理の適用

ADASへのDCNN処理の適用例の一つとして、ピクセル レベルで画像の分類を行う画像セグメンテーションを図1に 示す。この例では、入力カメラ画像の各ピクセルについて、 DCNN処理で走路,人,建造物,及びそれら以外を識別 し,色でラベル付けをしている。従来の画像技術での走路 検出には,道路両端の路側帯を示す白線が必要であった が,DCNN処理を適用することで,白線がない道路でも走 路を検出できるようになった。このように,DCNN処理は, 従来よりも高精度かつ高度な画像認識を実現できることか ら,ADASの機能拡充を図るために適用が切望されている。

#### 3. DCNN HWA

DCNN処理は、図2に示すように多数の処理層の組み 合わせで構成される。特に、畳み込み層と全結合層には膨 大な積和演算が必要になる。また、この積和演算は大量 のデータ(入力画像データ、層間の中間データ、及び重み データ)を扱うので、膨大なメモリーバンド幅も必要になる。 例えば、画像認識用ネットワークであるVGG-16<sup>(1)</sup>の推論処 理では、約15.5×10<sup>9</sup>回の積和演算と約138×10<sup>6</sup>個の重 みデータが、認識対象の画像領域ごとに必要となる。

そこで、このようなDCNN処理をリアルタイムかつ低消 費電力で実行するために、今回、DCNN HWAとDCNN HWAコンフィグレーション生成ツールを開発した。

### 3.1 DCNN HWAの構成

開発したDCNN HWAの構成を図3に示す。このDCNN HWAは、①LSI外部に接続されているDRAMに出力デー タを書き込んだり、DRAMから入力データを読み込んだり するDMA (Direct Memory Access)ユニット、②入出力 データや中間データを保持するための1 Mi (メビ(2<sup>20</sup>))バイ トの内部メモリー、③DCNN処理の主要な演算を行うため の実行ユニット、④全体の制御を行う制御ユニット、及び



## 図2. 典型的なDCNNの構造

DCNN処理は、多数の処理層の組み合わせで構成され、膨大なデータと 積和演算が必要になる。

Typical architecture of DCNN

⑤処理内容の設定を保持する設定バッファー,から構成される。

DMAユニットは、実行ユニットが演算処理を行っている 間も、並行してDRAMと内部メモリー間のデータ転送を行 う。この並列動作で、実行ユニットのデータ待ち状態を削 減し、実行ユニットの稼働率を向上させてDCNN処理を効 率的に実行することを可能にした。

内部メモリーは、DRAMよりもアクセス時の消費電力が小 さいSRAM (Static RAM)で構成されており、DCNN HWA 上の演算は、この内部メモリーにアクセスしつつ実行される。 しかし、アクセス回数が多いとその分だけ消費電力は増大す るため、内部メモリーについても効率化は重要である。

そこで、実行ユニットは、内部メモリーへのアクセス回数 を削減するように設計した。実行ユニットは、図4に示すよ うに、四つのPE (Processing Element)で4チャネル分の データを並列処理する。畳み込み層における各チャネルで のデータ演算時の入力データは同一なので、内部メモリー から読み込んだ入力データは4PE間で共用し、内部メモ リーへの総アクセス回数を削減した。また、各PE内では、



#### 図3. DCNN HWAの構成

実行ユニットとDMAユニットの並列動作によって,効率良くDCNN処理を 実行できる。

Architecture of HWA for DCNN processing



#### 図4. 実行ユニットの構成

DCNN処理で主要な演算を行う回路をカスケード接続し、内部メモリーへのアクセス回数を削減した。

Architecture of execution unit

DCNN処理において頻出する各層の処理を行う演算回路を カスケード接続し、カスケード接続された層間では、中間 データの内部メモリーでの書き込み/読み込みを不要にして 内部メモリーへのアクセス回数を削減した。更に、PE内の 畳み込み・全結合層ユニットには、畳み込み層と全結合層 の膨大な積和演算をリアルタイムに処理できるように、四つ のPE合計で1,024個(一つのPE当たり256個)の16ビッ ト浮動小数点精度の積和演算器を搭載した。

## 3.2 DCNN HWA コンフィグレーション生成ツール

パソコン(PC)上で学習したモデルのDCNN HWAへの 移植作業を効率化するため、学習済みモデルの変換を行 うDCNN HWAコンフィグレーション生成ツールを開発し た。開発したツールを用いたDCNN処理フローを図5に示 す。このツールは、オープンソースの深層学習フレームワー クであるCaffe<sup>(2)</sup>のネットワーク定義と重みデータを入力とし、 DCNN HWA用の実行バイナリー(DCNN HWAコンフィグ レーションバイナリー)を生成する。これは、DCNN HWA を制御する設定と、DCNN HWA用に変換された重みデー タから構成される。DCNN HWAは、このDCNN HWAコ ンフィグレーションバイナリーと入力データである画像データ を受け取り、DCNN処理を実行して推論結果を出力する。

このツールは、(1)DCNN HWAが持つ1 Miバイトの内部 メモリーに、演算に必要なデータが収まるようにネットワーク を分割し、(2)複数の層(演算)を統合(部分ネットワーク統合) して実行することで、DRAMアクセスのデータ量を削減する 最適化を行っている。以下でそれぞれについて説明する。

 ネットワーク分割 DCNN処理で必要となる膨大 なデータの全てを, DCNN HWAの1 Miバイトの内部 メモリーに, 同時に配置することはできない。そこで,



図5. DCNN HWA コンフィグレーション生成ツール 開発用PC上で学習したネットワーク定義と重みデータを, DCNN HWA コ ンフィグレーションバイナリーに変換する。

 ${\sf DCNN}~{\sf HWA}~{\sf configuration}~{\sf generator}~{\sf tool}$ 

このツールがネットワークを自動分割する。分割方法と しては、DCNNの中間データを水平・垂直方向にタイ ル状に分割する"タイル分割"と、重みデータを出力チャ ネルごとに分割する"重み分割"を行う。図6にタイル 分割の例を示す。最適化前ネットワーク(図6(a))の演 算bの実行に必要なデータAと実行結果のデータBの 合計が1 Miバイトを超える場合は、内部メモリーに同 時に配置することはできない(図6(b))。すなわち、こ のままではDCNN HWAで処理できない。そこで、ネッ トワークを分割し、内部メモリーに配置できるようにす る。図6(c)の例では、水平方向にタイルを2分割する。 そして、データAの一部であるA1をDMAユニットに より内部メモリー上に読み込み(図6(d)の①),実行ユ ニットにより演算blを実行し、データBlを得て、Bl をDMAユニットでDRAM上に書き込む(図6(d)の②)。 同様に、データA2を演算し、得られたB2をDRAM に書き込む(図6(d)の③,④)ことで、タイル分割前の



(e) ネットワーク分割と部分ネットワーク統合後の実行イメージ

#### 図6. ツールによるデータ量削減のための最適化例

ネットワーク分割とネットワーク統合により、膨大なデータが必要となる DCNN処理を、DCNN HWA上で効率良く実行できるようにした。

Example of optimization for reduction in amount of data using DCNN HWA configuration generator tool

特

集

(2) 部分ネットワーク統合 複数の層間の中間データ を演算の都度DRAMに書き込むと、DRAMアクセス に伴うデータ量が増え、消費電力が増大する。そこで、 このツールは、(1)で分割したネットワークで複数の演算 を統合し、中間データをDRAMに書き込まず、内部メ モリーに配置したまま処理を継続できるように最適化す る。図6(d)では、演算b1の結果であるデータB1は演 算clで利用される。しかし、演算bl、演算clともに タイル分割されており、データB1をDRAMに書き込 み(図6(d)の②), 再度DRAMから読み込む(図6(d) の⑤) 必要がある。そこで、図6(e)に示すように、演算 blと演算clで部分ネットワークを構成し、演算clは 演算blによって得られた内部メモリー上のBlを利用し て演算するように統合する(図6(e)の③)。その結果, データB1とデータB2は、DRAMでの書き込み/読み 込みが省略され, DRAMアクセスに伴うデータ入出力 量が削減される。

#### 4. DCNN処理実行時の消費電力測定

今回開発したDCNN HWAを搭載したLSI (試作チップ) では、DCNN HWA単体の消費電力が約1.5 Wであるこ とを確認した<sup>(3)</sup>。また、試作チップでのDCNN処理による 画像セグメンテーションの実行例を、図7に示す。このとき の評価用ボード全体の消費電力(AC(交流)アダプターで の損失、及び周辺インターフェースやDRAMチップなどの 周辺デバイスでの消費電力を含む)は、約6 Wであった。 GPUは、膨大なメモリーバンド幅と大量の積和演算器を備 え、かつ高い汎用性を持つことから、消費電力は100 Wク

 

 画像セグメン テーションの 表示画面
 「「」」」」」」

 Image: Control of the state of the sta

図7. DCNN処理実行時の評価用ボードの消費電力測定 試作チップで画像セグメンテーションを実行し,評価用ボード全体の消費 電力が約6Wであることを確認した。

Measurement of power consumption of evaluation board when running image segmentation on DCNN HWA

ラスになる。一方,開発したDCNN HWAは,DCNN処 理に特化した回路構成とメモリーアクセスの効率化で,冷却 ファンなしでも動作可能な低消費電力でDCNN処理が実現 できる。

### 5. あとがき

DCNN HWAとその専用ツールを開発した。このDCNN HWAは、DRAMアクセスと演算の並列動作、回路構成、 及びツールによって、メモリーへのアクセス回数とデータ入 出力量を削減し、DCNN HWA単体で約1.5 W、評価用 ボード全体で約6 Wと、ファンレスでのDCNN処理を実現 した。このDCNN HWAは、当社の車載向け画像認識プロ セッサー Visconti5に搭載予定であり、DCNN処理を利用 した高精度かつ高度なADASの構築に貢献していく。また、 低消費電力でDCNN処理を実現したいというニーズは車 載分野以外でも多いことから、今後、このDCNN HWAを 様々な製品向けに展開していく。

## 文 献

- Simonyan, K.; Zisserman, A. "Very Deep Convolutional Networks for Large-Scale Image Recognition". Proceedings of 3rd International Conference on Learning Representations (ICLR 2015). San Diego, CA, 2015-05, ICLR. arXiv.org e-Print archive, 2015, arXiv:1409.1556v6. <a href="https://arxiv.org/pdf/1409.1556.pdf">https://arXiv.org/pdf/1409.1556.pdf</a>, (accessed 2019-06-05).
- (2) Jia Y. et al. "Caffe: Convolutional Architecture for Fast Feature Embedding". Proceedings of the 22nd ACM international conference on Multimedia (ACM Multimedia 2014). Orlando, FL, 2014-11, Association for Computing Machinery. 2014, p.675–678.
- (3) Yamada, Y. et al. "A 20.5TOPS and 217.3GOPS/mm<sup>2</sup> Multicore SoC with DNN Accelerator and Image Signal Processor Complying with ISO26262 for Automotive Applications". 2019 IEEE International Solid-State Circuits Conference (ISSCC) Digest of Technical Papers. San Francisco, CA, 2019-02, IEEE. 2019, p.132–134.



石垣 雄太朗 ISHIGAKI Yutaro 東芝デバイス&ストレージ(株) デバイス&ストレージ研究開発 センター エンペデッドコア技術開発部 IEEE・電子情報通信学会会員 Toshiba Electronic Devices & Storage Corp.







田邉 靖貴 TANABE Yasuki, Ph.D.
東芝デバイス&ストレージ(株) デバイス&ストレージ研究開発
センター エンベデッドコア技術開発部
博士(工学)
Toshiba Electronic Devices & Storage Corp.