IP Fabric指的是在IP网络基础上建立起来的Overlay隧道技术。即为基于胖树的Spine+Leaf拓扑结构的IP Fabric组网图。
在这种组网方式中,任何两台服务器间的通信不超过3台设备,每个Spine和Leaf节点全互连,可以方便地通过扩展Spine节点来实现网络规模的弹性扩展。只要遍历一定数量的交换机,可以在几乎所有数据中心结构体系中的服务器节点之间传输流量,该架构由多条高带宽的直接路径组成,消除了网络瓶颈带来的潜在传输速度下降,从而实现极高的转发效率和低延迟。
根据不同的业务需要,Spine和Leaf之间可以使用IP路由、VXLAN或TRILL等技术。
● Spine和Leaf之间使用IP路由
即三层到边缘,一般适用于协同计算业务,例如搜索。此类业务流量收敛比小(1:1~2:1),要求有一个高效的,无阻塞网络。
● Spine和Leaf之间VXLAN(Virtual eXtensible Local Area Network)或TRILL(Transparent Interconnection of Lots of Links)即大二层网络,适用于需要大范围资源共享或者虚拟机迁移的数据中心网络。
IP Fabric网络允许简化扩展,仅受支持设备及其端口的数量限制。
我们可以看到,Spine层由四台设备组成。 每台Leaf设备有四个上行链路连接到每个Spine。 此拓扑中支持的Leaf的最大数量由每个Spine设备的最大端口数决定。 因此,如果我们的Spine交换机支持40×40GE连接,Leaf设备的最大数量将是40(但考虑到存在上行连接,所以这边算成36更为合理)。
BGP
TRILL技术简而言之就是通过在二层报文前插入额外的帧头,并且采用路由计算的方式控制整网数据的转发,不仅可以在冗余链路下防止广播风暴,而且可以做ECMP(Equal-Cost Multi-Path routing)。这样可以将二层网络的规模扩展到整张网络,而不会受核心交换机数量的限制。但由于TRILL技术在控制平面都引入了路由协议IS-IS(Intermediate System to Intermediate System)来进行网络拓扑的计算和同步,增加了网络的复杂度,另外对原始报文的封装/解封装也降低了整体的转发效率,并且TRILL协议的处理通常需要新的芯片才能支持,所以必须整体更换原来的设备,投资成本也是不小的负担。
VXLAN技术作为Overlay网络技术的典型代表,将在下一章节做重点介绍,现在就让我们将目光聚焦于传统的三层路由协议。三层作为网络架构的控制平面,负责将路由信息分发至组网中的所有交换机,但众所周知,三层路由协议的选择可以有很多选择,最好的做法就是支持主流的三种开放标准协议中的任何一种:OSPF(Open Shortest Path First),IS-IS或者BGP协议。本质上每种路由协议都可以在网络中通告路由前缀,但每种协议在支持的组网规模与实现功能上都有所不同。
OSPF和IS-IS都是使用洪泛技术来发送更新报文以及其他路由信息。 创建区域可以帮助限制洪泛的数量,但是这样一来也就开始失去SPF路由协议的好处。 另一方面,边界网关协议(BGP)通过按组创建,支持大量的前缀和对等体。BGP从多方面保证了网络的安全性、灵活性、稳定性、可靠性和高效性,互联网和大多数运营商都选择运行BGP协议来作为控制层面的路由协议。
BGP 协议基础
为方便管理规模不断扩大的网络,网络被分成了不同的自治系统。外部网关协议EGP(Exterior Gateway Protocol)被用于实现在AS之间动态交换路由信息,但是EGP设计得比较简单,只发布网络可达的路由信息,而不对路由信息进行优选,同时也没有考虑环路避免等问题,很快就无法满足网络管理的要求。
BGP是为取代最初的EGP而设计的另一种外部网关协议。不同于最初的EGP,BGP能够进行路由优选、避免路由环路、更高效率的传递路由和维护大量的路由信息。虽然BGP用于在AS之间传递路由信息,但并不是所有AS之间传递路由信息都需要运行BGP。比如在数据中心上行的连入Internet的出口上,为了避免Internet海量路由对数据中心内部网络的影响,设备采用静态路由代替BGP与外部网络通信。
BGP作为事实上的Internet外部路由协议标准,被广泛应用于ISP(Internet Service Provider)之间。
BGP协议具有如下特点:
● BGP是一种外部网关协议(EGP),与OSPF、RIP等内部网关协议(IGP)不同,其着眼点不在于发现和计算路由,而在于在AS之间选择最佳路由和控制路由的传播。
● BGP使用TCP作为其传输层协议,提高了协议的可靠性。
– BGP进行域间的路由选择,对协议的稳定性要求非常高。因此用TCP协议的高可靠性来保证BGP协议的稳定性。
– BGP的对等体之间必须在逻辑上连通,并进行TCP连接。目的端口号为179,本地端口号任意。
● 路由更新时,BGP只发送更新的路由,大大减少了BGP传播路由所占用的带宽,适用于在Internet上传播大量的路由信息。
● BGP是一种距离矢量(Distance-Vector)路由协议,BGP从设计上避免了环路的发生。
– AS之间:BGP通过携带AS路径信息来标记途经的AS,带有本地AS号的路由将被丢弃,从而避免了域间产生环路。
– AS内部:BGP在AS内学到的路由不再通告给AS内的BGP邻居,避免了AS内产生环路。
● BGP提供了丰富的路由策略,能够对路由实现灵活的过滤和选择。
● BGP提供了防止路由振荡的机制,有效提高了Internet网络的稳定性。
● BGP易于扩展,能够适应网络新的发展。
BGP 网络设计
当在规划部署BGP路由协议时,摆在我们面前的首要问题便是选择使用IBGP还是EBGP方式,虽然两者之间的差异可能看起来很小,但就是这些细微的差异可能导致数据中心在部署时的重大变化。IBGP与EBGP两者之间的最大区别在于它们使用自治系统的方式,现在我们将通过比较IBGP与EBGP的差异来看每台交换机是如何分配路由前缀以及通告路由的。
IBGP
在IBGP(Internal/Interior BGP)中,Spine和Leaf的所有交换机位于单个AS之下。 在BGP中,我们需要在IBGP对等体之间建立全连接(Full-mesh)关系来保证IBGP对等体之间的连通性。为什么IBGP要强调全连接概念呢,那是由于IBGP的防环机制导致的。IBGP强制规定ibgp speaker不允许将从一个IBGP邻居学习到的前缀传递给其它IBGP邻居,因此IBGP要求逻辑全连接。但假设在一个AS内部有n台路由器,那么应该建立的IBGP连接数就为n(n-1)/2。当IBGP对等体数目很多时,对网络资源和CPU资源的消耗都很大,在IBGP对等体间使用BGP联盟或者路由反射器都可以解决以上问题。
联盟将一个AS划分为若干个子AS。每个子AS内部建立IBGP全连接关系,子AS之间建立联盟EBGP连接关系,但联盟外部AS仍认为联盟是一个AS。配置联盟后,原AS号将作为每个路由器的联盟ID。这样有两个好处:一是可以保留原有的IBGP属性,包括Local Preference属性、MED属性和NEXT_HOP属性等;二是联盟相关的属性在传出联盟时会自动被删除,即管理员无需在联盟的出口处配置过滤子AS号等信息的操作。
路由反射器是IBGP路由器,它将重新向其他IBGP路由器通告路由。如图6-7所示,在一个AS内部关于路由反射器有以下几种角色:
● 路由反射器RR(Route Reflector):允许把从IBGP对等体学到的路由反射到其他IBGP对等体的BGP设备,类似OSPF网络中的DR。
● 客户机(Client):与RR形成反射邻居关系的IBGP设备。在AS内部客户机只需要与RR直连。
● 非客户机(Non-Client):既不是RR也不是客户机的IBGP设备。在AS内部非客户机与RR之间,以及所有的非客户机之间仍然必须建立全连接关系。
● 始发者(Originator):在AS内部始发路由的设备。Originator_ID属性用于防止集群内产生路由环路。
● 集群(Cluster):路由反射器及其客户机的集合。Cluster_List属性用于防止集群间产生路由环路。
这可以通过创建IBGP路由器集群,并将其与反射器连接起来。同一集群内的客户机只需要与该集群的RR直接交换路由信息,因此客户机只需要与RR之间建立IBGP连接,不需要与其他客户机建立IBGP连接,从而减少了IBGP连接数量。但问题随之而来,反射器并不会发送每一条路线,它只会选择发送最优的路径给它的对等体。当你有在Spine层面有多台交换机,且在Spine与Leaf之间存在多条链路时,链路冗余、利用率低的问题就出现了。为了解决这个问题,我们可以在BGP路由反射器上启用BGP负载分担功能,这样就可以向Leaf交换机通告存在四条等长的路由,可以通过等价多路径来分发流量。
我们从配置、设备连接和应用方面对BGP联盟和路由反射器进行了比较:
EBGP
在EBGP(External/Exterior BGP)中,Spine和Leaf中的每个交换机都有自己的AS。与IBGP的路由环路的避免措施不一样,EBGP没有水平分割的概念,EBGP对路由环路的避免是通过AS_PATH属性来实现的。AS_Path属性按矢量顺序记录了某条路由从本地到目的地址所要经过的所有AS编号。在接收路由时,设备如果发现AS_Path列表中有本AS号,则不接收该路由,从而避免了AS间的路由环路。
由前面章节的讨论可知,IBGP不需要IBGP邻居之间有物理连接,只需要逻辑连接即可,而EBGP在一般情况下都要求EBGP邻居之间存在物理连接。
唯一的问题是使用IP Fabric网络的AS数量,每台交换机都有自己的BGP自治系统号,BGP的私有范围为64512~65535,其中有1023个BGP自治系统号。 如果您的IP Fabric网络大于1023台交换机,则需要考虑进入公共的BGP自治系统号码范围(不建议在数据中心内部使用),或移动到私有的四字节AS号规划。CE系列交换机支持4字节私有AS号,4字节私有AS号范围是4200000000~4294967295(或者64086.59904~65535.65535)。
BGP在数据中心网络架构中的应用
下面就让我们将BGP路由协议与具体的网络架构场景联系起来。在场景DC1中有五排机架,都采用Spine+Leaf网络架构。 我们推荐使用EBGP建立VXLAN的Underlay网络,每行都使用EBGP的情况下设计,在Spine和Leaf层的每台交换机都有自己的AS号码。
对于场景DC2,我们采用的是EOR交换机部署,EBGP的设计如图所示
同样,如DC1场景图示所展现的一样,您可以将AS65000和65001用于第一行,然后为每个设备AS号递增加1。 如果您选择IBGP实施方法(通常在DC内用于VXLAN overlay路由的交换),设计将会变得非常简单,因为您只需将所有设备分配给同一AS号,覆盖整个DC1,你可以对DC2采用相同的方法,如图所示