流处理器研究与设计
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 VLSI技术的发展对处理器体系结构的影响

摩尔定律相当准确地预言了芯片上可集成的晶体管数目的增长规律。到2008年,单芯片上已经发展到可以放置十亿只晶体管,设计者可以将大量的运算单元集成在一个芯片上。在0.15 μm CMOS工艺下,一个32位整数加法器占用的芯片面积还不到0.05 mm2,而单芯片可以集成上百个1 GHz的浮点单元,总体性能超过了100 GFLOPS/片[2]。在线宽缩小的同时,计算功耗也在降低。例如,在Imagine处理器中[3],以0.18 μm工艺制造的单精度浮点乘加单元占用了0.486 mm2,而每个乘法操作只耗能185 pJ(0.185 mW/MHz)。计算成本相对来说越来越低。目前,约100 GFLOPS和超过1 TOPS(渲染)能力的图形芯片,其价格还不到100美元,如NVIDIA的GeForce4处理器,其性能达到120 GFLOPS和1.2 TOPS[4]。嵌入式处理器尽管性能没有那么强大,但价格便宜,原始的1 GFLOPS的成本不到1美元。

但与此同时,片内、片外的通信延迟、带宽和功耗却与运算单元的大规模集成难以匹配。随着线宽缩小,线延迟与门延迟相当,这成为制约频率的关键因素,高负载长线的功耗也变得不可忽视。以多端口存储器的访问为例,假定每个乘法需要三次访问多端口存储器,且使用三个5 mm的总线(2读1写)进行数据传输,每次驱动32位5 mm的总线来传送数据平均耗费24 pJ,通信的代价将与乘法的代价在同一个数量级。片外通信更是一种关键资源,即使采用现在最新的封装方式,芯片上最多也只能引出大约1000个引脚,这极大地限制了片外数据带宽。并且,片外通信也耗费了大量的能量(每32位的数据传送的耗费大于1nJ)[5]。这就是现代VLSI技术的一个典型特征:运算单元相对廉价,而运算单元之间的通信较昂贵。