IP Fabric三层路由

IP Fabric指的是在IP网络基础上建立起来的Overlay隧道技术。即为基于胖树的Spine+Leaf拓扑结构的IP Fabric组网图。
在这里插入图片描述
在这种组网方式中，任何两台服务器间的通信不超过3台设备，每个Spine和Leaf节点全互连，可以方便地通过扩展Spine节点来实现网络规模的弹性扩展。只要遍历一定数量的交换机，可以在几乎所有数据中心结构体系中的服务器节点之间传输流量，该架构由多条高带宽的直接路径组成，消除了网络瓶颈带来的潜在传输速度下降，从而实现极高的转发效率和低延迟。
根据不同的业务需要，Spine和Leaf之间可以使用IP路由、VXLAN或TRILL等技术。
● Spine和Leaf之间使用IP路由
即三层到边缘，一般适用于协同计算业务，例如搜索。此类业务流量收敛比小（1:1~2:1），要求有一个高效的，无阻塞网络。
● Spine和Leaf之间VXLAN（Virtual eXtensible Local Area Network）或TRILL（Transparent Interconnection of Lots of Links）即大二层网络，适用于需要大范围资源共享或者虚拟机迁移的数据中心网络。
IP Fabric网络允许简化扩展，仅受支持设备及其端口的数量限制。
在这里插入图片描述
我们可以看到，Spine层由四台设备组成。每台Leaf设备有四个上行链路连接到每个Spine。此拓扑中支持的Leaf的最大数量由每个Spine设备的最大端口数决定。因此，如果我们的Spine交换机支持40×40GE连接，Leaf设备的最大数量将是40（但考虑到存在上行连接，所以这边算成36更为合理）。

BGP

TRILL技术简而言之就是通过在二层报文前插入额外的帧头，并且采用路由计算的方式控制整网数据的转发，不仅可以在冗余链路下防止广播风暴，而且可以做ECMP（Equal-Cost Multi-Path routing）。这样可以将二层网络的规模扩展到整张网络，而不会受核心交换机数量的限制。但由于TRILL技术在控制平面都引入了路由协议IS-IS（Intermediate System to Intermediate System）来进行网络拓扑的计算和同步，增加了网络的复杂度，另外对原始报文的封装/解封装也降低了整体的转发效率，并且TRILL协议的处理通常需要新的芯片才能支持，所以必须整体更换原来的设备，投资成本也是不小的负担。
VXLAN技术作为Overlay网络技术的典型代表，将在下一章节做重点介绍，现在就让我们将目光聚焦于传统的三层路由协议。三层作为网络架构的控制平面，负责将路由信息分发至组网中的所有交换机，但众所周知，三层路由协议的选择可以有很多选择，最好的做法就是支持主流的三种开放标准协议中的任何一种：OSPF（Open Shortest Path First），IS-IS或者BGP协议。本质上每种路由协议都可以在网络中通告路由前缀，但每种协议在支持的组网规模与实现功能上都有所不同。
OSPF和IS-IS都是使用洪泛技术来发送更新报文以及其他路由信息。创建区域可以帮助限制洪泛的数量，但是这样一来也就开始失去SPF路由协议的好处。另一方面，边界网关协议（BGP）通过按组创建，支持大量的前缀和对等体。BGP从多方面保证了网络的安全性、灵活性、稳定性、可靠性和高效性，互联网和大多数运营商都选择运行BGP协议来作为控制层面的路由协议。

BGP 协议基础

为方便管理规模不断扩大的网络，网络被分成了不同的自治系统。外部网关协议EGP（Exterior Gateway Protocol）被用于实现在AS之间动态交换路由信息，但是EGP设计得比较简单，只发布网络可达的路由信息，而不对路由信息进行优选，同时也没有考虑环路避免等问题，很快就无法满足网络管理的要求。
BGP是为取代最初的EGP而设计的另一种外部网关协议。不同于最初的EGP，BGP能够进行路由优选、避免路由环路、更高效率的传递路由和维护大量的路由信息。虽然BGP用于在AS之间传递路由信息，但并不是所有AS之间传递路由信息都需要运行BGP。比如在数据中心上行的连入Internet的出口上，为了避免Internet海量路由对数据中心内部网络的影响，设备采用静态路由代替BGP与外部网络通信。
BGP作为事实上的Internet外部路由协议标准，被广泛应用于ISP（Internet Service Provider）之间。
BGP协议具有如下特点：
● BGP是一种外部网关协议（EGP），与OSPF、RIP等内部网关协议（IGP）不同，其着眼点不在于发现和计算路由，而在于在AS之间选择最佳路由和控制路由的传播。
● BGP使用TCP作为其传输层协议，提高了协议的可靠性。
– BGP进行域间的路由选择，对协议的稳定性要求非常高。因此用TCP协议的高可靠性来保证BGP协议的稳定性。
– BGP的对等体之间必须在逻辑上连通，并进行TCP连接。目的端口号为179，本地端口号任意。
● 路由更新时，BGP只发送更新的路由，大大减少了BGP传播路由所占用的带宽，适用于在Internet上传播大量的路由信息。
● BGP是一种距离矢量（Distance-Vector）路由协议，BGP从设计上避免了环路的发生。
– AS之间：BGP通过携带AS路径信息来标记途经的AS，带有本地AS号的路由将被丢弃，从而避免了域间产生环路。
– AS内部：BGP在AS内学到的路由不再通告给AS内的BGP邻居，避免了AS内产生环路。
● BGP提供了丰富的路由策略，能够对路由实现灵活的过滤和选择。
● BGP提供了防止路由振荡的机制，有效提高了Internet网络的稳定性。
● BGP易于扩展，能够适应网络新的发展。

BGP 网络设计

当在规划部署BGP路由协议时，摆在我们面前的首要问题便是选择使用IBGP还是EBGP方式，虽然两者之间的差异可能看起来很小，但就是这些细微的差异可能导致数据中心在部署时的重大变化。IBGP与EBGP两者之间的最大区别在于它们使用自治系统的方式，现在我们将通过比较IBGP与EBGP的差异来看每台交换机是如何分配路由前缀以及通告路由的。

IBGP

在IBGP（Internal/Interior BGP）中，Spine和Leaf的所有交换机位于单个AS之下。在BGP中，我们需要在IBGP对等体之间建立全连接（Full-mesh）关系来保证IBGP对等体之间的连通性。为什么IBGP要强调全连接概念呢，那是由于IBGP的防环机制导致的。IBGP强制规定ibgp speaker不允许将从一个IBGP邻居学习到的前缀传递给其它IBGP邻居，因此IBGP要求逻辑全连接。但假设在一个AS内部有n台路由器，那么应该建立的IBGP连接数就为n(n-1)/2。当IBGP对等体数目很多时，对网络资源和CPU资源的消耗都很大，在IBGP对等体间使用BGP联盟或者路由反射器都可以解决以上问题。
在这里插入图片描述

联盟将一个AS划分为若干个子AS。每个子AS内部建立IBGP全连接关系，子AS之间建立联盟EBGP连接关系，但联盟外部AS仍认为联盟是一个AS。配置联盟后，原AS号将作为每个路由器的联盟ID。这样有两个好处：一是可以保留原有的IBGP属性，包括Local Preference属性、MED属性和NEXT_HOP属性等；二是联盟相关的属性在传出联盟时会自动被删除，即管理员无需在联盟的出口处配置过滤子AS号等信息的操作。
路由反射器是IBGP路由器，它将重新向其他IBGP路由器通告路由。如图6-7所示，在一个AS内部关于路由反射器有以下几种角色：
在这里插入图片描述
● 路由反射器RR（Route Reflector）：允许把从IBGP对等体学到的路由反射到其他IBGP对等体的BGP设备，类似OSPF网络中的DR。
● 客户机（Client）：与RR形成反射邻居关系的IBGP设备。在AS内部客户机只需要与RR直连。
● 非客户机（Non-Client）：既不是RR也不是客户机的IBGP设备。在AS内部非客户机与RR之间，以及所有的非客户机之间仍然必须建立全连接关系。
● 始发者（Originator）：在AS内部始发路由的设备。Originator_ID属性用于防止集群内产生路由环路。
● 集群（Cluster）：路由反射器及其客户机的集合。Cluster_List属性用于防止集群间产生路由环路。
这可以通过创建IBGP路由器集群，并将其与反射器连接起来。同一集群内的客户机只需要与该集群的RR直接交换路由信息，因此客户机只需要与RR之间建立IBGP连接，不需要与其他客户机建立IBGP连接，从而减少了IBGP连接数量。但问题随之而来，反射器并不会发送每一条路线，它只会选择发送最优的路径给它的对等体。当你有在Spine层面有多台交换机，且在Spine与Leaf之间存在多条链路时，链路冗余、利用率低的问题就出现了。为了解决这个问题，我们可以在BGP路由反射器上启用BGP负载分担功能，这样就可以向Leaf交换机通告存在四条等长的路由，可以通过等价多路径来分发流量。
我们从配置、设备连接和应用方面对BGP联盟和路由反射器进行了比较：
在这里插入图片描述

EBGP

在EBGP（External/Exterior BGP）中，Spine和Leaf中的每个交换机都有自己的AS。与IBGP的路由环路的避免措施不一样，EBGP没有水平分割的概念，EBGP对路由环路的避免是通过AS_PATH属性来实现的。AS_Path属性按矢量顺序记录了某条路由从本地到目的地址所要经过的所有AS编号。在接收路由时，设备如果发现AS_Path列表中有本AS号，则不接收该路由，从而避免了AS间的路由环路。
由前面章节的讨论可知，IBGP不需要IBGP邻居之间有物理连接，只需要逻辑连接即可，而EBGP在一般情况下都要求EBGP邻居之间存在物理连接。
唯一的问题是使用IP Fabric网络的AS数量，每台交换机都有自己的BGP自治系统号，BGP的私有范围为64512~65535，其中有1023个BGP自治系统号。如果您的IP Fabric网络大于1023台交换机，则需要考虑进入公共的BGP自治系统号码范围（不建议在数据中心内部使用），或移动到私有的四字节AS号规划。CE系列交换机支持4字节私有AS号，4字节私有AS号范围是4200000000～4294967295（或者64086.59904～65535.65535）。
在这里插入图片描述

BGP在数据中心网络架构中的应用

下面就让我们将BGP路由协议与具体的网络架构场景联系起来。在场景DC1中有五排机架，都采用Spine+Leaf网络架构。我们推荐使用EBGP建立VXLAN的Underlay网络，每行都使用EBGP的情况下设计，在Spine和Leaf层的每台交换机都有自己的AS号码。
在这里插入图片描述
对于场景DC2，我们采用的是EOR交换机部署，EBGP的设计如图所示

同样，如DC1场景图示所展现的一样，您可以将AS65000和65001用于第一行，然后为每个设备AS号递增加1。如果您选择IBGP实施方法（通常在DC内用于VXLAN overlay路由的交换），设计将会变得非常简单，因为您只需将所有设备分配给同一AS号，覆盖整个DC1，你可以对DC2采用相同的方法，如图所示
在这里插入图片描述