编程考古-CPU(中)

P5:The First Pentium 奔腾

奔腾（Pentium）处理器于1993年首次亮相，标志着英特尔x86处理器家族的一个新时代的开始。它打破了以往80x86数字命名的传统，成为英特尔首个不沿用此命名规则的x86处理器。内部架构上，奔腾采用了全新的P5体系结构，这一体系结构是英特尔首次在x86系列中引入超标量设计，意味着它可以同时执行多条指令，从而显著提升了处理性能。

奔腾不仅在整体性能上超越了其前代产品80486，更引人注目的是其浮点运算单元（FPU）的大幅提升。最初的奔腾处理器，其FPU的性能较之80486的老化单元快了超过十倍，这对于需要大量数学计算的应用程序来说是一个巨大的进步。随着时代的发展，当英特尔推出奔腾MMX版本时，FPU的重要性愈发凸显。奔腾MMX不仅继承了原有奔腾的架构优势，还加入了新的MMX SIMD指令集支持，这种增强对于图像、音频和视频等多媒体应用的性能提升尤为显著。

除了架构上的革新，奔腾相较于80486，在一级缓存容量上也有所增加。初代奔腾配备有16KB的一级缓存，而到了奔腾MMX，这一数字翻倍至32KB。更大的缓存有助于减少CPU访问主内存的次数，进而提高了系统的响应速度和效率。此外，这些处理器能够运行在更高的时钟频率下，从最初使用800纳米工艺制造、仅能达到60兆赫兹的初代奔腾，到后来通过采用更为先进的250纳米制程技术，使得频率提升至300兆赫兹，这不仅是工艺的进步，更是性能的巨大飞跃。

P6: The Pentium Pro 奔腾Pro

英特尔原本计划紧随奔腾之后迅速推出基于P6体系结构的奔腾Pro，但在开发过程中遭遇了技术挑战。奔腾Pro在32位运算速度上显著超越了其前代产品，这得益于它创新的无序（Out-of-Order, OoO）设计。这种设计允许处理器根据资源可用性灵活地执行指令，而不是严格遵循程序中规定的顺序。奔腾Pro内部架构经历了重大革新，能够将指令解码为微操作，并在通用执行单元上高效执行。为了支持这一复杂的设计，奔腾Pro采用了14级流水线，比以往更深，但这也带来了额外的硬件开销。

针对服务器市场的首次出击，英特尔对奔腾Pro进行了定制化调整，扩展地址总线至36位并引入了物理地址扩展（PAE）技术，使系统能够支持高达64GB的RAM——远超当时普通用户的实际需求，但对于服务器客户而言却是至关重要的特性。这样的改进使得奔腾Pro成为了高性能服务器的理想选择。

在缓存系统方面，奔腾Pro同样经历了重新设计。一级缓存被细分为两个8KB的分段，分别用于指令和数据。虽然与奔腾MMX的一级缓存相比减少了16KB，但英特尔通过在CPU封装外单独配置的二级缓存芯片弥补了这一不足，提供了从256KB到1MB的容量。这些二级缓存芯片通过背面总线（Back-Side Bus, BSB）连接到CPU，有效地提高了缓存命中率和性能。

尽管奔腾Pro具备一些革命性的功能，但它在消费市场上并未能如预期般取得成功。一方面，奔腾Pro在处理16位软件时表现不如奔腾和奔腾MMX，而那时16位应用程序仍然广泛使用；另一方面，奔腾Pro缺乏对新推出的MMX指令集的支持，导致在运行MMX优化软件时，奔腾MMX反而表现出更好的性能。此外，由于需要额外的芯片来包含二级缓存，奔腾Pro的生产成本较高，这也限制了它在消费者市场中的普及。最快的奔腾Pro处理器运行频率达到了200 MHz，晶体管尺寸范围在500纳米至350纳米之间。

P6: Pentium II

英特尔并未放弃P6体系结构的潜力，而是选择在1997年推出奔腾II，以此来解决奔腾Pro所面临的问题并进一步优化性能。奔腾II继承了奔腾Pro的核心架构特性，例如14级流水线设计，并在此基础上进行了多项增强，以提高每时钟周期指令数（IPC），从而实现了更高效的指令处理。

奔腾II的一个显著改进是其一级缓存容量的增长：数据和指令缓存各增加到16KB，使得处理器能够更快地访问常用数据和代码片段。为了降低生产成本，英特尔采用了更具成本效益的方法来集成二级缓存——将价格较为低廉的缓存芯片连接到更大的硅封装上。虽然这些二级缓存模块不能以CPU的全速运行，但它们以一半的频率工作，对于早期的奔腾II来说，这样的配置已经足以显著提升整体性能。

此外，奔腾II还加入了对MMX指令集的支持，这使得它在多媒体应用和图像处理任务中表现得更加出色。随着MMX技术的加入，奔腾II不仅能在传统的计算任务中表现出色，还能更好地满足当时日益增长的多媒体需求。

奔腾II内部使用的CPU核心，分别被赋予了“Klamath”和“Deschutes”的代号，同时也作为服务器市场的Xeon系列以及奔腾II Overdrive产品的一部分推向市场。性能最强劲的型号配备了512KB的二级缓存，并且可以达到450 MHz的运行频率，为用户提供了前所未有的性能体验。

通过这些改进，奔腾II不仅克服了奔腾Pro的局限性，还在性能、成本效益和功能支持方面取得了重大进展，成为了那个时代计算机处理器领域的里程碑之作。

P6: Pentium III And The Race To 1 GHz

英特尔原计划在奔腾II之后推出基于其Netburst架构的处理器，但这一架构尚未成熟。因此，英特尔决定再次沿用P6架构，并推出了奔腾III处理器。

奔腾III系列中的首款处理器代号为“Katmai”，它与奔腾II非常相似，同样使用了包含较低质量二级缓存的插槽式封装，且该缓存只能以CPU频率的一半速度运行。然而，在基础架构方面，“Katmai”进行了一些显著改进：14级流水线中的一些部分被合并，使得流水线缩短至10级。得益于更新后的流水线设计以及更高的时钟频率，初代奔腾III处理器在性能上通常能略胜一筹于其前代产品奔腾II。

“Katmai”采用250纳米晶体管制造。随着转向180纳米制造工艺，英特尔得以大幅提升奔腾III的性能。这种升级后的版本被称为“Coppermine”。在“Coppermine”中，二级缓存被移到了CPU内部，虽然容量减半至256KB，但它能够以处理器的全速运行，从而大幅提升了性能。“Coppermine”是英特尔与AMD的Athlon处理器竞争突破1GHz大关的产品，最终成功达成了目标。英特尔曾尝试生产1.13GHz型号的奔腾III，但由于Tom's Hardware的Dr. Tom Pabst发现这款处理器存在稳定性问题，该型号最终被召回。这使得1GHz型号成为了最快的“Coppermine”核心奔腾III处理器。

奔腾III系列的最后一款核心名为“Tualatin”，它采用了130纳米工艺，支持高达1.4GHz的时钟频率。同时，“Tualatin”将二级缓存容量恢复到了512KB，这对性能提升有所帮助。作为P6架构的一个重要演进，“Tualatin”不仅标志着奔腾III时代的巅峰，也预示着未来更先进处理器的到来。

P5 And P6: Celeron And Xeon赛扬和至强

在奔腾II问世的同时，英特尔推出了赛扬（Celeron）和至强（Xeon）两个新的产品线，旨在覆盖更广泛的市场。这两个系列的处理器虽然基于与奔腾II或奔腾III相同的内核架构，但通过调整缓存容量来区分定位。

最初的赛扬品牌处理器是基于奔腾II的，它们的一个显著特点是完全省略了二级缓存，这一设计决策导致这些早期赛扬处理器性能欠佳。随着技术的发展，基于奔腾III的赛扬处理器登场，这时的赛扬仅启用了部分二级缓存——具体来说是一半，即128KB。当采用“Coppermine”内核时，这种配置被称为Coppermine-128；而到了后来基于“Tualatin”内核的赛扬处理器，则将L2缓存增加到了256KB，被称作Tualatin-256。尽管缓存容量有限，但英特尔以接近奔腾III的时钟频率销售这些赛扬处理器，使得它们在市场上表现良好，并且能够与AMD的Duron处理器形成有力的竞争。值得注意的是，微软在其初代Xbox游戏机中选用了733MHz的Coppermine-128赛扬作为CPU。

另一方面，至强处理器则定位于高端服务器和工作站市场。与赛扬截然不同，至强强调的是更大的二级缓存。基于奔腾II的至强处理器至少配备有512KB的L2缓存，与同期奔腾II CPU相同，而高端型号更是可以拥有高达2MB的缓存。这使得至强处理器在多任务处理和数据密集型应用中具有明显优势，满足了专业用户对性能的需求。

通过不同的缓存策略，英特尔不仅丰富了自己的产品线，还针对不同市场需求提供了多样化的选择。从面向入门级用户的赛扬到专为高性能计算设计的至强，英特尔成功地用同一基础架构打造了一个涵盖广泛的产品家族。

Netburst架构简介

在深入探讨英特尔的Netburst架构及其标志性的Pentium 4处理器之前，有必要先理解其背后的深度流水线概念。流水线描述了指令通过处理器核心的过程，其中每个流水线阶段可能会执行多个任务，也有可能专注于单一功能。通过增加新硬件或将一个阶段分割成多个阶段，可以扩展执行流水线。相反地，移除硬件或将多个阶段的功能合并为一个阶段，则可以使处理器流水线缩短。

流水线的长度或深度直接影响到延迟、每时钟周期指令数（IPC）、时钟频率以及架构的吞吐量需求。更长的流水线通常需要更高的带宽，但如果能保持数据的持续供给，那么流水线中的每一阶段都可以保持忙碌状态。拥有较长流水线的处理器一般能够以更高的时钟频率运行。

然而，这种设计的权衡是处理器内部的显著较高延迟，因为数据流经各个阶段时必须在每个阶段停留一定数量的时钟周期。采用长流水线的处理器往往具有较低的IPC值，因此它们依赖显著提高的频率来提升性能。多年来，无论是基于长流水线还是短流水线设计理念的处理器都取得了成功，证明了这两种方法都有其合理性，没有一种方案绝对优于另一种。

Netburst: Pentium 4 Willamette And Northwood威拉米特和诺思伍德

2000年，英特尔的Netburst架构正式面世，并首次应用于奔腾4（Pentium 4）处理器，这一设计随后主导了英特尔高端CPU市场长达六年之久。Netburst架构的第一个具体实现被称为“Willamette”，它不仅标志着新架构的起点，也引领了奔腾4系列的最初两年。

然而，这段时期对于英特尔来说充满了挑战。尽管Netburst实现了显著更高的时钟频率，使Willamette成功突破了2 GHz大关，但1.4 GHz的奔腾III在某些应用场景中依然保持领先。同时期，AMD推出的Athlon处理器凭借其优越性能，在市场上占据了明显优势。

Willamette的主要难题在于英特尔尝试通过扩展流水线至20个阶段以达成更高时钟速率的目标，特别是超过2 GHz之后，却因功耗和热量问题而受阻。这些问题使得Willamette未能充分发挥预期的性能潜力。

随着2002年初130纳米制程的“Northwood”设计推出，情况有所改善。这款设计将最高时钟频率提升到了3.2 GHz，并且二级缓存容量从256KB增加到了512KB，有效缓解了部分功耗和热量的问题。Northwood版本的奔腾4在性能上有了明显的飞跃，与AMD的竞争中重新获得了强劲的竞争力。

此外，英特尔还在高端产品线上引入了“超线程”（Hyper-Threading）技术，旨在提高多任务处理环境下的资源利用率。尽管这项技术带来的性能增益不如后来的酷睿i7系列那么显著，但在当时确实为性能带来了几个百分点的提升。

P6: Pentium-M

Netburst架构因其追求高性能而设计得相对耗电，这使得它并不适合移动计算设备。因此，在2003年，英特尔推出了专为笔记本电脑优化的Pentium-M处理器体系结构。与同时期的桌面级CPU不同，Pentium-M继承了更节能的P6架构，并引入了一种创新的可变长度流水线设计，流水线深度在12至14个阶段之间变化。当指令所需的数据已经存在于缓存中时，它可以快速通过12个阶段完成执行；如果需要额外加载数据，则需经过两个附加阶段。

Pentium-M系列的首发产品采用了130纳米工艺制造，集成了1MB的二级缓存，并成功达到了1.8 GHz的频率，而功耗却仅仅只有24.5瓦。这种高效能比使它成为了当时移动市场的佼佼者。

随后，在2004年发布的“Dothan”修订版进一步推动了这一进步。Dothan转向了更为精细的90纳米制程，这不仅让英特尔能够将二级缓存扩大到2MB，还加入了一些核心级别的改进，以提升每周期指令数（IPC）。得益于这些增强，Dothan的最高速度达到了2.27 GHz，同时功耗仅轻微上升至27瓦。

Pentium-M架构最终被应用于Stealey A100移动CPU中，直到后来被专为低功耗设计的Atom处理器系列所接替。Pentium-M的成功不仅证明了英特尔在移动计算领域的技术实力，也为其后续开发针对移动和便携式设备的处理器奠定了坚实的基础。

Netburst: Prescott普雷斯科特

从2002年到2004年间，英特尔在其处理器中坚持使用Netburst架构，该架构旨在通过增加时钟频率来实现性能的显著提升。然而，随着技术的进步和市场需求的变化，英特尔在2004年推出了带有众多改进特性的Prescott核心，标志着Netburst架构的一个重要转折点。

Prescott采用了更先进的90纳米制造工艺，这使得英特尔能够将二级缓存容量翻倍至1MB，并引入了新的LGA 775接口，支持DDR2内存和更快的四泵FSB（前端总线）。这些升级显著提升了数据传输带宽，对于增强Netburst架构的性能表现至关重要。此外，Prescott还成为英特尔首款支持64位计算的x86处理器，这意味着它能处理更大的地址空间，从而访问更多的RAM，并执行64位指令集。

尽管有这么多的创新，Prescott却未能如愿成为Netburst家族中的明星产品。英特尔再次增加了流水线长度至31个阶段，希望借此提高时钟频率以弥补因长流水线带来的延迟。虽然理论上这应该可以带来更高的性能，但实际上Prescott只能达到3.8 GHz的主频上限。由于功耗过大以及热量过高，Prescott的核心设计遇到了瓶颈。原本预期采用90纳米工艺会降低发热量，但事实证明，晶体管密度的增加反而使散热问题变得更加棘手。因为无法突破频率限制，Prescott的性能提升并没有预期中那么理想。

即使拥有额外的缓存和其他改进，Prescott在相同频率下与前代Northwood相比，其性能提升也显得平庸无奇。与此同时，AMD的K8架构也开始转向更小的晶体管尺寸，这不仅帮助它们实现了更高的工作频率，还在一段时间内确立了AMD在台式机CPU市场的领先地位。这一时期见证了CPU市场竞争格局的重大转变，而Prescott则成为了英特尔基于Netburst架构的产品线中一个不太成功的尝试。

Netburst: Pentium D

2005年，随着双核处理器时代的黎明破晓，AMD和英特尔之间的竞赛达到了白热化。AMD虽已宣布其双核Athlon 64处理器，但尚未将其推向市场。不甘落后的英特尔迅速采取行动，推出了基于两个Prescott核心的多芯片模块（MCM）设计的首款面向消费者的双核处理器——奔腾D，其首个型号被命名为“Smithfield”。

奔腾D的推出标志着一个重要的技术里程碑，但它也继承了Prescott架构的一些固有问题。由于每个核心都是基于Netburst架构设计，这使得奔腾D在功耗和热量管理方面遇到了挑战，限制了它的最高时钟频率只能达到3.2 GHz。此外，有限的架构带宽导致了指令每时钟周期数（IPC）的下降，因为吞吐量需要在两个核心之间分配。与AMD的单片双核CPU相比，奔腾D的设计显得不够优雅，后者被认为更加优越。

紧随Smithfield之后的是Presler，这是英特尔迈向更先进制程工艺的重要一步。Presler采用了65纳米晶体管技术，集成了两个Cedar Mill核心在一个MCM上。这一进步不仅有助于缓解热量和功耗问题，还使英特尔能够将处理器的时钟频率提升至3.8 GHz。

Presler带来了两个显著的变化：首先是热设计功率（TDP），从最初的125W降低到了后续型号的95W；其次是通过缩小芯片尺寸，英特尔成功地将二级缓存容量翻倍至每个核心2MB。一些高端型号还引入了超线程技术，使得这些处理器可以同时处理四个线程，进一步提升了多任务处理能力。

所有奔腾D处理器均支持64位软件，这意味着它们能够利用超过4GB的RAM，为用户提供了更大的内存空间以运行复杂的应用程序。尽管奔腾D面临诸多批评，它仍然是当时计算技术发展的一个重要标志，反映了英特尔在追求更高性能道路上不断探索的努力。