[关闭]
@mShuaiZhao 2018-01-30T04:54:19.000000Z 字数 6204 阅读 1242

计算机体系结构论文阅读

2018.01 ComputerArchitecture


2017_ISCA_SCNN

SCNN:An Accelerator for Compressed-sparse Convolutional Neural Networks

Abstract

这篇论文提出了一种稀疏CNN(SCNN)加速结构,通过利用值为零的网络权重和值为零的网络激活函数值来提升网络的性能。

SCNN实现了一种新的dataflow来对稀疏权重和稀疏激活函数值进行编码,消除了不必要的数据转换并减少了存储开销。

1. Introduction

2. Motivation

SCNN同时利用了权重和网络激活函数值的稀疏性,并使用了一种原创性的笛卡尔积dataflow。

3. SCNN

3.1 The PT-IS-CP-dense Dataflow

3.2 The PT-IS-CP-sparse Dataflow

PT-IS-CP-sparse dataflow, 专为压缩后的稀疏权重和稀疏激活函数值设计。

对稀疏矩阵进行编码的主要目的是要得到一个非零值和它对应的索引。

输入的都是压缩后的非零的数据及其索引
输出就不一定了,任何位置都有可能出现非零值

为了适应这种稀疏结构,利用交叉开关(crossbar switch)实现一个scatter network,基于输出的索引来进行累加得到最后的输出值。

4. SCNN ACCELERATOR ARCHITECTURE

4.1 Tiled Architecture

平铺结构

每个PE有接受weights、input activations的通道和输出output activations的通道。

每个PE都和附近的PEs相连,以在卷积过程中交换halo value。

4.2 PE的结构

image_1c3aqu7b9q4o1e9u1runke6128f9.png-118.3kB

including a weight buffer, input/output activation RAMs (IARAM and
OARAM), a multiplier array, a scatter crossbar, a bank of accumulator buffers, and a post-processing unit (PPU).

4.3 全连接层

全连接层在现在使用的网络中占比很少

也可以将全连接层转化为卷积层

对卷积使用SCNN,对全连接层使用例如EIE等针对全连接层进行了优化的结构。

4.4 对较大模型的暂时性分割

权重和输入函数值太多,不能一次性装入IARAM和weight buffer。对层进行分割。

4.5 SCNN结构的配置

5. EVALUATION

有效的加速了网络的运行速度,减少了能量消耗,

2017_MICRO_Cambricon-X

Cambricon-X: An Accelerator for Sparse Neural Networks

0. 摘要

神经网络的火热,利用网络本身的稀疏性和不规律性。

1.Introduction

2.背景和动机

state-of-the-art的神经网络

稀疏神经网络的研究

本文中神经元指的就是网络的神经元,突触指的是连接神经元的边,就是权重。

3.加速器设计

3.1 总体架构

image_1c3hgqo7nmqvnrii0v14cj6bf9.png-39.1kB

4. note

这篇文章看完也并没有什么感觉,可能拖的时间太长了,也可能是没有看懂。

这篇文章主要针对sparse neural network设计了一种加速器,取名为Cambricon-X。总体架构上并没有什么特别创新的地方,最创新的地方应该是针对sparse neural network设计的缓存控制器中,有一个专门设计的indexing单元,这个单元起到了压缩稀疏神经网络的作用,极大的减少了运算量。
还有一个特别之处在于使用了Fat-tree总线来连接所有的PE单元,有效避免了写阻塞。
由于Cambricon-X自身的并行设计,对于普通的dense neural network,也有较好的加速性能。

文章的出发点也是利用了sparse neural network自身的稀疏性,这是很多网络加速器的出发点,是一个值得研究的方向。很多工作都基于此展开。有后续研究的价值。

2016_ISCA_Cnvlutin

Cnvlutin: Ineffectual-Neuron-Free Deep Neural Network Computing

这篇文章怎么说呢,是基于DaDianNao加速器的一种改进,在DaDianNao加速器的基础上避免了0值的运算。

2017_ISCA_Maximizing CNN Accelerator Efficiencey Through Resource Partitioning

2016_ISCA_Minerva

2016_ISCA_ISAAC

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注