[go: up one dir, main page]

HK1248417B - 揭示最大分段标识符深度值的方法、设备和存储介质 - Google Patents

揭示最大分段标识符深度值的方法、设备和存储介质 Download PDF

Info

Publication number
HK1248417B
HK1248417B HK18107513.3A HK18107513A HK1248417B HK 1248417 B HK1248417 B HK 1248417B HK 18107513 A HK18107513 A HK 18107513A HK 1248417 B HK1248417 B HK 1248417B
Authority
HK
Hong Kong
Prior art keywords
bgp
network device
msd
msd value
network
Prior art date
Application number
HK18107513.3A
Other languages
English (en)
Other versions
HK1248417A1 (zh
Inventor
叶夫根尼‧坦楚拉
格里高里‧米尔斯基
Original Assignee
瑞典爱立信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/846,342 external-priority patent/US9967184B2/en
Application filed by 瑞典爱立信有限公司 filed Critical 瑞典爱立信有限公司
Publication of HK1248417A1 publication Critical patent/HK1248417A1/zh
Publication of HK1248417B publication Critical patent/HK1248417B/zh

Links

Description

揭示最大分段标识符深度值的方法、设备和存储介质
相关申请的交叉引用
本申请要求享有2015年7月2日提交的美国临时申请No.62/188,402的权益,其内容在此通过引用并入。
技术领域
本发明的实施例涉及分组网络领域,更具体地,涉及分段路由。
背景技术
分段路由(SR)是基于源路由的分组转发技术。在因特网工程任务组(IETF)草案“draft.filsfils-rtgwg-segment-routing-use-cases”(该文献通过引用并入本文)中描述了SR的各种用例。在IETF草案“draft.filsfils-rtgwg-segment-routing”(该文献通过引用并入本文)中描述了SR的抽象路由模型。IETF草案“draft.filsfils-rtgwg-segment-routing”使用互联网协议版本6(IPv6)或多协议标签交换(MPLS)描述了SR的实例化。
发明内容
描述了一种由充当边界网关协议(BGP)发言者的网络设备实现的揭示所述网络设备的最大分段标识符深度(MSD)值的方法。所述方法包括将所述MSD值编码到BGP链路状态(BGP-LS)扩展消息中。所述BGP-LS扩展消息包括类型、长度和MSD值。所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度以及所述MSD值指示所述网络设备支持的用于实现分段路由的最低MSD值。所述方法继续向网络控制器发送包括所述类型、所述长度和所述MSD值的所述BGP-LS扩展消息,其中,所述网络控制器要使用所述MSD值来计算包括所述网络设备的分段路由路径。
公开了充当边界网关协议(BGP)发言者的网络设备。所述网络设备要与网络控制器耦合。所述网络设备包括处理器和存储器,所述存储器包含所述处理器可执行的指令。所述网络设备用于将所述网络设备的最大分段标识符深度(MSD)值编码到BGP链路状态(BGP-LS)扩展消息中。所述BGP-LS扩展消息包括类型、长度和MSD值。所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度以及所述MSD值指示所述网络设备支持的用于实现分段路由的最低MSD值。所述网络设备还用于:向所述网络控制器发送包括所述类型、所述长度和所述MSD值的所述BGP-LS扩展消息,其中,所述网络控制器要使用所述MSD值来计算包括所述网络设备的分段路由路径。
公开了一种非暂时性机器可读存储介质。所述非暂时性机器可读存储介质提供指令,如果所述指令被充当边界网关协议BGP发言者并与网络控制器耦合的网络设备的处理器执行,将使得所述处理器执行操作。所述操作包括:将所述网络设备的最大分段标识符深度(MSD)值编码到BGP链路状态(BGP-LS)扩展消息中。所述BGP-LS扩展消息包括类型、长度和MSD值。所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度以及所述MSD值指示所述网络设备支持的用于实现分段路由的最低MSD值。所述操作还包括:向所述网络控制器发送包括所述类型、所述长度和所述MSD值的所述BGP-LS扩展消息,其中,所述网络控制器要使用所述MSD值来计算包括所述网络设备的分段路由路径。
公开了网络控制器中的方法。所述方法包括从充当边界网关协议(BGP)发言者的网络设备接收(302)BGP链路状态(BGP-LS)扩展消息。所述方法继续对所述BGP-LS扩展消息进行解码,以提取所述网络设备的最大分段标识符深度(MSD)值。所述BGP-LS扩展消息包括类型、长度和MSD值,所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度,所述MSD值指示所述网络设备支持的用于实现分段路由的最低MSD值。所述方法还包括:使用所述MSD值计算包括所述网络设备的分段路由(SR)路径,其中,所述SR路径具有低于或等于所述MSD值的标签堆栈深度。
公开了网络控制器。所述网络控制器包括处理器和存储器,所述存储器包含所述处理器可执行的指令。所述网络控制器用于从充当边界网关协议(BGP)发言者的网络设备接收BGP链路状态(BGP-LS)扩展消息。所述网络控制器还用于:对所述BGP-LS扩展消息进行解码,以提取所述网络设备的最大分段标识符深度(MSD)值。所述BGP-LS扩展消息包括类型、长度和MSD值,所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度,所述MSD值指示所述网络设备支持的用于实现分段路由的最低MSD值。所述网络控制器还用于:使用所述MSD值计算包括所述网络设备的分段路由(SR)路径,其中,所述SR路径具有低于或等于所述MSD值的标签堆栈深度。
公开了一种非暂时性机器可读存储介质。所述非暂时性机器可读存储介质提供指令,如果所述指令被网络控制器的处理器执行,将使得所述处理器执行操作。所述操作包括从充当边界网关协议(BGP)发言者的网络设备接收BGP链路状态(BGP-LS)扩展消息。所述操作还包括对所述BGP-LS扩展消息进行解码,以提取所述网络设备的最大分段标识符深度(MSD)值。所述BGP-LS扩展消息包括类型、长度和MSD值,所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度,所述MSD值指示所述网络设备支持的用于实现分段路由的最低MSD值。所述操作还包括:使用所述MSD值计算包括所述网络设备的分段路由(SR)路径,其中,所述SR路径具有低于或等于所述MSD值的标签堆栈深度。
附图说明
通过参考用于说明本发明的实施例的以下描述和附图,可以最好地理解本发明。附图中:
图1是根据本发明的一些实施例的示出了实现向外部应用传输最大分段标识符(SID)深度(MSD)的SR网络的框图。
图2示出了根据本发明的一些实施例的在用于揭示MSD值的网络设备中执行的操作的流程图。
图3示出了根据本发明的一些实施例的在网络控制器中执行的操作的流程图。
图4A示出了根据一些实施例的包括网络设备的节点MSD值的示例性不透明节点属性类型-长度-值(TLV)。
图4B示出了根据一些实施例的包括网络设备的链路MSD值的示例性不透明链路属性TLV。
图5A示出了根据本发明一些实施例的示例网络内的网络设备(ND)之间的连接性以及ND的三种示例实现。
图5B示出了根据本发明一些实施例的用于实现专用网络设备的示例方式。
图5C示出了根据本发明一些实施例的可以耦合虚拟网元(VNE)的各种示例方式。
图5D示出了根据本发明一些实施例的在每个ND上具有单一网元的网络,且在该直观方案中,对比了(传统路由器常用的)传统分布式方案与用于维护可达性和转发信息(也被称为网络控制)的集中式方案。
图5E示出了根据本发明一些实施例的以下简单情况:ND中的每一个实现单一NE,而集中式控制平面将不同ND中的多个NE抽象为(以表示)虚拟网络之一中的单一NE。
图5F示出了根据本发明一些实施例的以下情况:在不同ND上实现多个VNE并且多个VNE彼此耦合,以及集中式控制平面将这些多个VNE加以抽象,使得他们表现为虚拟网络之一中的单一VNE。
图6示出了根据本发明的一些实施例的具有集中式控制平面(CCP)软件650的通用控制平面设备。
具体实施方式
以下描述描述了用于揭示与网络设备相关联的最大分段标识符深度(MSD)值的方法和装置。在以下描述中,阐述了大量的具体细节,例如逻辑实现、操作码(opcode)、用于指定运算数的手段、资源分区/共享/复制实现、系统组件的类型和相互关系、以及逻辑分区/整合选择,以提供对本发明的更全面的理解。然而,本领域技术人员将意识到:本发明可以在没有这些具体细节的情况下实施。在其它实例中,并未详细示出控制结构、门级别电路和全软件指令序列,以不使本发明模糊。在使用所包括的描述的情况下,本领域普通技术人员将能够在不进行过度试验的情况下实现恰当的功能。
说明书中对“一个实施例”、“实施例”、“示例实施例”的引用指示了所描述的实施例可以包括特定特征、结构、或特性,但是每个实施例可以不必包括该特定特征、结构、或特性。此外,这种短语不必参考同一实施例。此外,当结合实施例来描述具体特征、结构或特性时,应认为结合其他实施例(不管是否是显式描述的)来实现这种特征、结构或特性是在本领域技术人员的知识内的。
在本文中,括号中的文本和具有虚线边界(例如,长划点虚线、短划线虚线、点虚线、以及点)的框可以用于示出向本发明实施例添加附加特征的可选操作。然而,这种标注不应当被视为意味着:在本发明的某些实施例中,他们是仅有的选项或可选操作,和/或具有实线边界的框不是可选的。
在以下描述和权利要求中,可以使用术语“耦合”和“连接”以及它们的派生词。应当理解:这些术语不意在作为彼此的同义词。“耦合”用于指示两个或更多个元素可以或可以不彼此直接物理或电学接触、彼此协作或交互。“连接”用于指示在彼此耦合的两个或更多个元素之间建立通信。
电子设备或计算设备(例如终端站、网络设备)使用机器可读介质存储和(在内部和/或通过网络与其他电子设备)发送(由软件指令组成的)代码和数据,所述机器可读介质例如是非暂时性机器可读介质(例如,诸如磁盘;光盘;只读存储器;闪存设备;相变存储器的机器可读存储介质)和暂时性机器可读传输介质(例如,电、光、声或其他形式的传播信号,如载波、红外信号)。此外,这样的电子设备包括硬件,例如耦合到一个或多个其他组件的一个或多个处理器的集合,该一个或多个其他组件例如是一个或多个非暂时性机器可读存储介质(用于存储代码和/或数据)和网络连接(以使用传播信号来传输代码和/或数据)以及在一些情况下的用户输入/输出设备(例如,键盘、触摸屏和/或显示器)。处理器的集合与其他组件的耦合通常通过电子设备内的一个或多个互连(例如,总线和可能的桥接)来实现。因此,给定电子设备的非暂时性机器可读介质通常存储用于在该电子设备的一个或多个处理器上执行的指令。本发明实施例的一个或多个部分可以使用软件、固件、和/或硬件的不同组合来实现。
如本文所使用的,网络设备(例如,路由器、交换机、桥接)是包括硬件和软件的联网设备,其可通信地与网络上的其他设备(例如,其他网络设备、终端站)互连。一些网络设备是为多个联网功能(例如,路由、桥接、交换、层2聚合、会话边界控制、服务质量和/或订户管理)提供支持和/或为多应用服务(例如,数据、语音和视频)提供支持的“多服务网络设备”。订户终端站(例如服务器、工作站、笔记本电脑、上网本、掌上电脑、移动电话、智能电话、多媒体电话、基于互联网协议的语音(VOIP)电话、用户设备、终端、便携式媒体播放器、GPS单元、游戏系统、机顶盒)访问互联网上提供的内容/服务和/或在覆盖在互联网上(例如通过互联网隧道方式连接)的虚拟专用网络(VPN)上提供的内容/服务。该内容和/或服务通常由属于服务或内容提供商的一个或多个终端站(例如服务器终端站)或参与对等(P2P)服务的终端站来提供,且可以包括例如公开网页(例如,自由内容、商店前端页面、搜索服务)、私有网页(例如,提供电子邮件服务的用户名/密码访问网页)和/或基于VPN的公司网络。典型地,订户终端站耦合(例如,通过(无线或有线地)耦合到接入网的客户住宅设备)到边缘网络设备,边缘网络设备耦合(例如,通过一个或多个核心网设备)到其他边缘网络设备,该其他边缘网络设备耦合到其他终端站(例如,服务器终端站)。
网络设备通常被划分为控制平面和数据平面(有时称为转发平面或媒体平面)。在网络设备是路由器(或正在实现路由功能)的情况下,控制平面通常确定数据(例如,分组)如何被路由(例如数据的下一跳和数据的输出端口),且数据平面负责转发该数据。例如,控制平面通常包括一个或多个路由协议(例如,诸如边界网关协议(BGP)的外部网关协议、内部网关协议(IGP)(例如,开放最短路径优先(OSPF)、中间系统到中间系统(IS-IS)、路由信息协议(RIP))、标签分发协议(LDP)、资源预留协议(RSVP)),所述一个或多个路由协议与其他网络设备进行通信,以交换路由,并基于一个或多个路由度量选择这些路由。
网络外部的控制平面或组件可以基于网络拓扑和网络内的当前连接状态(包括流量工程信息)来执行计算。例如,为了确定分段路由路径,处理组件(例如,控制平面、SDN控制器、路径计算元素(PCE)等)需要收集关于SR网络的每个网络设备的拓扑和能力的信息,以便正确地对其进行配置。在分段路由(SR)中,网络节点(例如,具有SR能力的网络设备)通过利用指令的集合(在本文中称为分段)来控制分组通过网络。这些分段被包含作为SR报头的一部分,该报头已经在SR网络的入口处被预加到分组上。分段可以表示任何拓扑或服务指令。SR架构可以应用于MPLS数据平面,而不改变转发平面。SR在应用于MPLS数据平面时提供从入口标签交换路由器向出口LSR隧道传输服务(例如,虚拟专用网络(VPN)、虚拟专用局域网服务(VPLS)、虚拟专用线服务(VPWS))的能力,而不使用除IS-IS或OSPF之外的任何协议。分段被编码为MPLS标签。分段的有序列表被编码为标签堆栈。下一个要处理的分段位于堆栈的顶部。分段完成后,对应的标签将从堆栈弹出(pop)。
具体而言,控制平面需要收集关于正被配置的每个网络节点的最大分段标识符(SID)深度(MSD)的信息,使得控制器不将网络节点配置为具有路径/隧道,所述路径/隧道的SID(或标签堆栈)比网络节点能够强加的SID更深。“最大SID深度”(MSD)规定SR网络节点能够强加在分组上的SID(即分段或标签堆栈)的最大数量。
在一种方法中,控制平面可以使用路径计算元素通信协议(PCEP)来获取SR网络节点的MSD。PCEP是允许路径计算客户端(PCC)(例如,控制平面配置的网络节点)向路径计算元素(PCE)(例如,控制平面)请求路径计算的规则的集合。根据PCEP,如在“draft-ietf-pce-segment-routing”(通过引用并入本文)中所讨论的,MSD经由PCEP扩展“SR PCECapability TLV/METRIC Object”传递给控制平面。
在另一种方法中,可使用内部网关协议(IGP)将每个网络节点的MSD值传递给控制平面。在这种方法中,称为RLSDC sub-TLV的sub-TLV被定义为通告网络节点读取最大标签堆栈深度(即,网络设备的MSD)的能力,如在“draft-ietf-ospf-mpls-elc”和“draft-ietf-isis-mpls-elc”(它们通过引用并入本文)中针对OSPF和IS-IS所分别定义的。
将MSD揭示给网络控制器的挑战
虽然PCEP可被用于将网络节点的MSD揭示给另一个网络设备(例如,控制平面),但是当PCEP不被网络节点(特别是SR路径/隧道的头端)支持时,或者如果网络节点不参与IGP路由,则控制平面没有任何方法来获知被配置的网络节点的MSD。这导致控制平面关于所配置的网络节点的标签堆栈深度做出任意决定,其可能导致网络节点的错误配置,导致分组丢失。另外,PCEP和IGP不允许控制平面获得网络节点内的链路的MSD,并且仅允许控制平面获得全局节点MSD。
本文呈现的实施例克服了先前方法的限制。根据一些实施例,描述了一种由充当边界网关协议(BGP)发言者的网络设备执行的向网络控制器发送与网络设备相关联的最大分段标识符深度(MSD)值的方法。在这些实施例中,网络设备的MSD值被编码到BGP链路状态(BGP-LS)扩展消息中。BGP-LS扩展消息包括类型、长度和MSD值,类型指示MSD值的类型,长度指示MSD值的长度,MSD值指示网络设备的最低节点MSD值。在其他实施例中,MSD值是指示针对网络设备的每个链路的最低MSD值的链路MSD值。然后,向网络控制器发送BGP-LS扩展消息,其中,网络控制器要在计算包括网络设备的分段路由路径时使用该MSD值。
在“draft-ietf-idr-ls-distribution-11”(通过引用并入)中描述的BGP-LS描述了一种机制,通过该机制可以从网络收集链路状态和流量工程信息并使用BGP路由协议与外部组件(例如,控制平面、集中式控制器、PCE等)共享。
图1是根据一些实施例的示出了实现向外部应用传输最大分段标识符(SID)深度(MSD)的SR网络的框图。
图1示出了与包括网元(NE)170A-H(有时被称为路由器、交换机、转发元素、数据平面元素或节点)的数据平面180(有时被称为基础架构层、网络转发平面或转发平面(其不应当与ND转发平面相混淆)相耦合的集中式控制平面176。集中式控制平面176包括网络控制器178,网络控制器178包括确定网络内的可达性并向数据平面180的NE 170A-H分发转发信息的集中式可达性和转发信息模块(未示出)。在这些实施例中,网络情报(networkintelligence)集中在通常与ND分离的电子设备上执行的集中式控制平面176中。
图1还示出了集中式控制平面176具有针对应用层186的北向接口184,在应用层186中驻留有应用188。集中式控制平面176具有针对应用188来形成虚拟网络(有时被称为逻辑转发平面、网络服务或覆盖网络(且数据平面180的NE 170A-H是底层网络))的能力。从而,集中式控制平面176维护所有ND和所配置的NE/VNE的全局视图,且其将虚拟网络高效地映射到底层ND(包括当物理网络通过硬件(ND、链路、或ND组件)故障、添加或移除来进行改变时维护这些映射)如下文进一步详细描述的,每个网元NE 170A-H可以由一个或多个网络设备来实现。
NE 170E包括MSD值,MSD值是对节点和/或节点的链路的能力的指示。在一些实施例中,MSD值是NE 170E中静态配置的范围[0,254]内的数值。在备选实施例中,MSD值是从IGP节点重新分配的。在一些实施例中,MSD值与网络设备唯一地相关联。
MSD值可以是节点MSD值,其指示NE 170E支持的标签的最大数量(SID)。在一些实施例中,值0意味着NE 170E不用于推送任何长度的SR堆栈并且不应该用于这种功能。备选地,MSD值可以是链路MSD值,其指示NE 170E的链路支持的标签的最大数量(SID)。在一些实施例中,值0意味着链路不用于推送任何长度的SR堆栈并且不应该用于这种功能。
NE 170E和网络控制器178被配置为包括BGP并且充当网络100中的BGP发言者。在对等握手期间,在两个BGP发言者(NE 170E和网络控制器178)之间交换OPEN消息。NE 170E和网络控制器178协商会话的能力。为了使两个BGP发言者(NE 170E和网络控制器178)交换链路状态网络层可达性信息(NLRI),它们使用BGP能力通告来确保它们都能够正确地处理这一NLRI。能力的协商包括验证NE 170E和网络控制器178中的每一个能够支持本文呈现的BGP-LS的用于传输BGP-LS扩展消息的新功能,其中,NE 170E的MSD值被编码到BGP-LS扩展消息中。
在能力的协商之后,在任务框(1)处,NE 170E将MSD值编码到要发送给网络控制器178的BGP链路状态(BGP-LS)扩展消息中。BGP-LS扩展消息包括类型、长度和MSD值,类型指示MSD值的类型,长度指示MSD值的长度,MSD值指示网络节点支持的用于实现分段路由路径的最低MSD值。
在一些实施例中,MSD值是NE 170E的节点MSD值。在这些实施例中的一些实施例中,节点MSD值被编码到BGP-LS的不透明节点属性类型-长度-值(TLV)中。不透明节点属性TLV是承载由网元通告的节点属性TLV的包封(envelope)。在本发明的实施例中,不透明节点属性TLV用于承载NE 170E的节点MSD值。NE 170E使用不透明节点属性TLV向其他BGP发言者(例如,网络控制器178)通告其相关联的节点MSD值。图4A示出了根据一些实施例的包括网元的节点MSD值的示例性不透明节点属性TLV。不透明节点属性TLV是类型TLV(类型-长度-值)的容器400。类型410包括标识在容器400内发送的值的类型的值,长度412指定在容器400内发送的值的长度,且不透明节点属性414包括与NE 170E相关联的MSD值。在一些实施例中,MSD值是范围[0,254]中的值,并且指示NE 170E所支持的标签的最大数量(SID)。
在其他实施例中,MSD值是NE 170E的链路MSD。不透明链路属性TLV是承载由网元通告的链路属性TLV的包封。NE 170E使用不透明链路属性TLV向其他BGP发言者(例如,网络控制器178)通告其相关联的链路MSD。图4B示出了根据一些实施例的包括网元的链路MSD值的示例性不透明链路属性TLV。不透明节点属性TLV是类型TLV(类型-长度-值)的容器402。类型416包括标识在容器402内发送的值的类型(例如,链路MSD类型)的值,长度418指定在容器402内发送的值的长度,且不透明链路属性420包括与NE 170E相关联的链路MSD值。在一些实施例中,链路MSD值是范围[0,254]中的值,并且指示NE 170E的链路所支持的标签的最低的最大数量(SID)。
回到图1,在任务框(2)处,NE 170E的MSD值被发送给网络控制器178。在一些实施例中,在对BGP-LS扩展消息中的MSD值(例如,不透明节点属性TLV或不透明链路属性TLV)进行编码之后,将消息通告给与NE 170E耦合的所有BGP发言者。
在任务框(3)处,网络控制器178对BGP-LS扩展消息进行解码,以提取网络设备的最大分段标识符深度(MSD)值。BGP-LS扩展消息包括类型、长度和MSD值,类型指示MSD值的类型,长度指示MSD值的长度,MSD值指示网络设备支持的用于实现分段路由的最低MSD值。在一些实施例中,一旦消息被解码并且MSD值被提取,则网络控制器178使用MSD值来计算包括NE 170E的分段路由路径,以使得所计算的路由路径的标签堆栈深度不超过网元170E所支持的MSD值。在一些实施例中,MSD值与网络设备唯一地相关联。
在一些实施例中,网元170E是作为SR隧道/路径的头端的网络节点。因此,发送给网络控制器178的MSD值使得网络控制器能够计算允许网元170E推送等于MSD值的最大深度的完整标签(SID)堆栈的SR路径。
因此,这里给出的实施例描述了使用BGP-LS扩展将网络节点的MSD值揭示给外部应用(例如,PCE/SDN控制器、网络控制器)的高效方式。实施例使得外部应用能够以比先前的方法更精细的粒度来接收与网元有关的MSD信息。与使得网络设备能够仅揭示网络节点的节点MSD值的现有方法相反,参考图1-4B描述的机制使得网络设备在能够揭示节点MSD值之外还能揭示其在链路级别的相关联的MSD值。
将参照其他附图的示例实施例来描述流程图中的操作。然而,应当理解:流程图中的操作可以由本发明中除了参照其他附图描述的那些实施例之外的实施例来执行,且本发明的参照这些其他附图讨论的实施例可以执行与参照流程图来讨论的那些实施例不同的操作。
图2示出根据一些实施例的在网络设备中执行的用于揭示网络设备的MSD值的操作200的流程图。在框202处,NE 170E将MSD值编码到BGP链路状态(BGP-LS)扩展消息中。BGP-LS扩展消息包括类型、长度和MSD值,类型指示MSD值的类型,长度指示MSD值的长度,MSD值指示网络设备支持的用于实现分段路由的最低MSD值。然后,流程移至框203。
在框203处,NE 170E向网络控制器178发送包括MSD值的BGP-LS扩展消息。网络控制器178用于使用所接收的MSD值来计算包括网络设备的分段路由路径。在一些实施例中,网元170E是作为SR隧道/路径的头端的网络节点。因此,发送到控制器的MSD值使得控制器能够计算允许网元推送等于MSD值的最大深度的完整标签(SID)堆栈的SR路径。
图3示出了根据一些实施例的在网络控制器中执行的操作的流程图。在框302处,网络控制器178从充当边界网关协议(BGP)发言者的网络设备(例如,NE 170E)接收BGP链路状态(LS)扩展消息。然后,流程移至框304。
在框304处,网络控制器178对BGP-LS扩展消息进行解码,以提取网络设备的最大分段标识符深度(MSD)值。BGP-LS扩展消息包括类型、长度和MSD值,类型指示MSD值的类型,长度指示MSD值的长度,MSD值指示网络设备支持的用于实现分段路由的最低MSD值。在一些实施例中,MSD值与网络设备唯一地相关联。
在框304处,网络控制器使用所提取的MSD值计算包括网络设备的分段路由(SR)路径,其中,SR路径具有低于或等于该MSD值的标签堆栈深度。在一些实施例中,网元170E是作为SR隧道/路径的头端的网络节点。因此,发送到控制器的MSD值使得控制器能够计算允许网络节点推送等于MSD值的最大深度的完整标签(SID)堆栈的SR路径。
虽然以网络设备向控制平面的网络控制器发送编码到BGP-LS扩展消息中的MSD值来描述本发明的实施例,但是本发明不限于此。备选实施例可以被实现为使得MSD值被发送给与网络设备耦合且用于解码包括MSD值的BGP-LS扩展消息的任何类型的网元。
架构
通常,网络设备包括一个或多个线路卡的集合、一个或多个控制卡的集合以及可选地包括一个或多个服务卡(有时称为资源卡)的集合。这些卡通过一个或多个互连机制耦合在一起(例如,第一全网格耦合线路卡以及第二全网格耦合所有卡)。线路卡的集合构成数据平面,而控制卡的集合提供控制平面并通过线路卡与外部网络设备交换分组。服务卡的集合可以提供特殊处理(例如,层4到层7服务(例如,防火墙、网际协议安全(IPsec)、入侵检测系统(IDS)、对等(P2P)、基于IP的语音(VoIP)会话边界控制器、移动无线网关(网关通用分组无线电服务(GPRS)支持节点(GGSN)、演进分组核心(EPC)网关)))。作为示例,服务卡可以用于端接IPsec隧道,并执行伴随的认证和加密算法。
图5A示出了根据本发明一些实施例的示例网络内的网络设备(ND)之间的连接性以及ND的三种示例实现。图5A示出了ND 500A-H,以及借助A-B、B-C、C-D、D-E、E-F、F-G、A-G之间以及H与A、C、D和G中每一个之间的线示出了它们的连接性。这些ND是物理设备,且这些ND之间的连接性可以是无线的或有线的(经常被称为链路)。从ND 500A、E和F延伸的附加线示出了:这些ND担当网络的进入点和离开点(且从而这些ND有时被称为边缘ND;而其他ND可以被称为核心ND)。
图5A中的两个示例ND实现是:1)专用网络设备502,其使用定制的专用集成电路(ASIC)和专有操作系统(OS);以及2)通用网络设备504,其使用常见的现货供应(COTS)处理器和标准OS。
专用网络设备502包括联网硬件510,联网硬件510包括计算资源512(其通常包括一个或多个处理器的集合)、转发资源514(其通常包括一个或多个ASIC和/或网络处理器)、以及物理网络接口(NI)516(有时被称为物理端口)、以及其中存储有联网软件520的非瞬时机器可读存储介质518。物理NI是ND中的硬件,通过该硬件进行网络连接(例如,通过无线网络接口控制器(WNIC)以无线方式或者通过将电线插入连接到网络接口控制器(NIC)的物理端口),例如由ND 500A-H之间的连接所示出的那些连接。在操作期间,BGP-LS MSD值编码器520可以由联网硬件510来执行,以实例化一个或多个联网软件实例522的集合,所述联网软件实例522包括BGP-LS MSD值编码器实例533A-R。每个联网软件实例522以及联网硬件510的执行该联网软件实例的部分(如果其是专用于该联网软件实例的硬件和/或由该联网软件实例与其他联网软件实例522按时间共享的硬件的时间片)形成了单独的虚拟网元530A-R。在操作期间,BGP-LS MSD值编码器用于执行参照图1、2和4A-4B描述的操作。每个虚拟网元(VNE)530A-R包括控制通信和配置模块532A-R(有时被称为本地控制模块或控制通信模块)和转发表534A-R,使得给定的虚拟网元(例如,530A)包括控制通信和配置模块(例如,532A)、一个或多个转发表的集合(例如,534A)、以及联网硬件510的执行虚拟网元(例如,530A)的部分。
专用网络设备502经常在物理上和/或逻辑上被视为包括:1)ND控制平面524(有时被称为控制平面),包括执行控制通信和配置模块532A-R的计算资源512;以及2)ND转发平面526(有时被称为转发平面、数据平面、或媒体平面),包括利用转发表534A-R的转发资源514和物理NI 516。作为ND是路由器(或实现路由功能)的示例,ND控制平面524(执行控制通信和配置模块532A-R的计算资源512)通常负责参与控制如何路由(例如,数据的下一跳和该数据的输出物理NI)数据(例如,分组)并负责在转发表534A-R中存储该路由信息,以及ND转发平面526负责在物理NI 516上接收该数据并基于转发表534A-R将该数据转发出物理NI516中的恰当物理NI。
图5B示出了根据本发明一些实施例的用于实现专用网络设备502的示例方式。图5B示出了包括卡538(通常是可热插拔的)在内的专用网络设备。尽管在一些实施例中,卡538具有两种类型(作为ND转发平面526来工作的一个或多个(有时被称为线路卡)、以及进行工作以实现ND控制平面524的一个或多个(有时被称为控制卡)),备选实施例可以将功能结合到单一卡上和/或包括附加卡类型(例如,一种附加类型的卡被称为服务卡、资源卡、或多应用卡)。服务卡可以提供特殊处理(例如,层4到层7服务(例如,防火墙、网际协议安全(IPsec)(RFC 4301和4309)、安全套接字层(SSL)/传输层安全(TLS)、入侵检测系统(IDS)、对等(P2P)、基于IP的语音(VoIP)会话边界控制器、移动无线网关(网关通用分组无线电服务(GPRS)支持节点(GGSN)、演进分组核心(EPC)网关)))。作为示例,服务卡可以用于端接IPsec隧道,并执行伴随的认证和加密算法。这些卡通过示出为背板536的一个或多个互连机制耦合在一起(例如,第一全网格耦合线路卡以及第二全网格耦合所有卡)耦合。
返回图5A,通用网络设备504包括硬件540,硬件540包括一个或多个处理器542(其经常是COTS处理器)的集合和网络接口控制器544(NIC,也被称为网络接口卡)(其包括物理NI 546)以及其中存储有软件550的非瞬时机器可读存储介质548。在操作期间,处理器542执行软件550以实例化一个或多个应用564A-R的一个或多个集合。尽管一个实施例没有实现虚拟化,但是备选实施例可以使用不同形式的虚拟化(由虚拟化层554和软件容器562A-R表示)。例如,一个这样的备选实施例实现了操作系统级别的虚拟化,在这种情况下,虚拟化层554代表允许创建多个软件容器562A-R的操作系统的内核(或在基本操作系统上执行的垫片(shim)),软件容器562A-R中的每一个可以用于执行应用564A-R的集合中的一个。在该实施例中,多个软件容器562A-R(也称为虚拟化引擎、虚拟私有服务器或狱(jail))均是用户空间实例(通常是虚拟存储空间);这些用户空间实例彼此分离并与操作系统所运行于的内核空间分离;除非明确允许,否则在给定用户空间中运行的应用集不能访问其他进程的存储器。另一个这样的备选实施例实现完全虚拟化,在这种情况下:1)虚拟化层554表示管理程序(有时称为虚拟机监视器(VMM))或在主机操作系统之上执行的管理程序;以及2)软件容器562A-R均表示软件容器的紧密隔离形式(称为由管理程序运行的虚拟机),并且可以包括访客操作系统。虚拟机是将程序运行的好像它们在物理的、非虚拟化的机器上执行一样的物理机器的软件实现;以及应用一般不知道它们运行在虚拟机上还是运行在“纯金属”的主机电子设备上,然而出于优化目的,一些系统提供允许操作系统或应用能够意识到存在虚拟化的准虚拟化(para-virtualization)。
一个或多个应用564A-R的一个或多个集合的实例化以及虚拟化层554和软件容器562A-R(如果实现的话)统称为软件实例552。应用564A-R、对应的软件容器562A-R(如果实现的话)以及硬件540的执行它们的部分(如果其是专用于该执行的硬件和/或由软件容器562A-R按时间共享的硬件的时间片)的每个集合形成单独的虚拟网元560A-R。
虚拟网元560A-R执行与虚拟网元530A-R相似的功能,例如与控制通信和配置模块532A以及转发表534A类似的功能(硬件540的该虚拟化有时被称为网络功能虚拟化(NFV))。从而,NFV可以用于将很多网络设备类型统一到工业标准高容量服务器硬件、物理交换机、和物理存储器,它们可以位于数据中心、ND、和客户住宅设备(CPE)中。然而,本发明的不同实施例可以用不同方式来实现软件容器562A-R中的一个或多个。例如,尽管将本发明的实施例示出为每个软件容器562A-R对应于一个VNE 560A-R,备选实施例可以在更精细级别粒度上实现该对应关系(例如,线路卡虚拟机虚拟化线路卡,控制卡虚拟机虚拟化控制卡等等);应当理解:本文参考软件容器562A-R与VNE的对应关系来描述的技术同样适用于使用这种更精细级别粒度的实施例。
在某些实施例中,虚拟化层554包括提供与物理以太网交换机类似的转发服务的虚拟交换机。具体地,该虚拟交换机在软件容器562A-R和NIC 544之间转发业务,以及可选地在软件容器562A-R之间转发业务;此外,该虚拟交换机可以在不被允许彼此通信的VNE560A-R之间通过策略来强制执行网络隔离(例如,通过执行虚拟局域网(VLAN))。
图5A中的第三示例ND实现是混合网络设备506,其在单一ND或ND内的单一卡中包括定制ASIC/专有OS和COTS处理器/标准OS。在这种混合网络设备的某些实施例中,平台VM(即,实现专用网络设备502的功能的VM)可以向混合网络设备506中存在的联网硬件提供准虚拟化。
不管ND的上述示例实现如何,当考虑由ND实现的多个VNE中的单一一个VNE时,或者在NV当前仅实现单一VNE的情况下,缩写的术语网元(NE)有时被用于指代该VNE。同样在全部上述示例实现中,每个VNE(例如,VNE 530A-R、VNE 560A-R、以及混合网络设备506中的那些)在物理NI(例如,516、546)上接收数据并将该数据转发出物理NI(例如,516、546)中的恰当物理NI。例如,实现IP路由器功能的VNE基于IP分组中的一些IP报头信息来转发IP分组;其中,IP报头信息包括源IP地址、目的IP地址、源端口、目的端口(其中“源端口”和“目的端口”在本文中被称为协议端口,与ND的物理端口相对)、传输协议(例如,用户数据报协议(UDP)(RFC 768、2460、2675、4113、以及5405)、传输控制协议(TCP)(RFC 793和1180)、以及差异服务(DSCP)值(RFC2474、2475、2597、2983、3086、3140、3246、3247、3260、4594、5865、3289、3290、以及3317))。
图5C示出了根据本发明一些实施例的可以耦合VNE的各种示例方式。图5C示出了在ND 500A中实现的VNE 570A.1-570A.P(以及可选的VNE 570A.Q-570A.R)以及ND 500H中的VNE 570H.1。在图5C中,VNE570A.1-P在以下意义上是彼此分离的:它们可以从ND 500A外部接收分组并向ND 500A外部转发分组。VNE 570A.1与VNE 570H.1耦合,且从而它们在其各自ND之间传输分组;VNE 570A.2-570A.3可以可选地在它们之间转发分组,而不向ND 500A外部转发分组;以及VNE 570A.P可以可选地是VNE链中的第一个,该VNE链包括VNE 570A.Q,之后包括VNE570A.R(有时这被称为动态服务链接,其中,一系列VNE中的每个VNE提供不同服务,例如,一个或多个层4-7网络服务)。尽管图5C示出了VNE之间的各种示例关系,备选实施例可以支持其他关系(例如,更多/更少的VNE、更多/更少的动态服务链、具有公共VNE和一些不同VNE的多个不同动态服务链)。
图5A的ND例如可以形成互联网或私有网络的一部分;以及其他电子设备(未示出,例如端用户设备,包括工作站、膝上型计算机、上网本、平板电脑、掌上型计算机、移动电话、智能电话、平板手机、多媒体电话、基于网际协议的语音(VoIP)电话、终端、便携式媒体播放器、GPS单元、可穿戴设备、游戏系统、机顶盒、支持互联网的家用电器)可以耦合到网络(直接或通过诸如接入网之类的其他网络),以通过网络(例如,互联网或覆盖(例如,隧道传输通过)在互联网上的虚拟私有网络(VPN))彼此通信(直接或通过服务器)和/或访问内容和/或服务。这种内容和/或服务通常由属于服务/内容提供商的一个或多个服务器(未示出)或参与对等(P2P)服务的一个或多个端用户设备(未示出)来提供,且可以包括例如公开网页(例如,自由内容、商店前端页面、搜索服务)、私有网页(例如,提供电子邮件服务的用户名/密码访问网页)、和/或基于VPN的公司网络。例如,端用户设备可以耦合(例如,通过(无线或有线)耦合到接入网的客户住宅设备)到边缘ND,边缘ND耦合(例如,通过一个或多个核心ND)到其他边缘ND,该其他边缘ND耦合到担当服务器的电子设备。然而,通过计算和存储虚拟化,作为图5A中ND来工作的一个或多个电子设备还可以提供一个或多个这种服务器(例如,在通用网络设备504的情况下,软件容器562A-R中的一个或多个软件容器可以作为服务器工作;这对于混合网络设备506来说也将是正确的;在专用网络设备502的情况下,一个或多个这种服务器还可以运行在由计算资源512执行的虚拟化层上);在该情况下,服务器被称为是与该ND的VNE同处一地。
虚拟网络是提供网络服务(例如,L2和/或L3服务)的物理网络(例如,图5A中的那个物理网络)的逻辑抽象。虚拟网络可以实现为在底层网络(例如,L3网络,如使用隧道(例如,通用路由封装(GRE)、层2隧道传输协议(L2TP)、IPSec)来创建覆盖网络的网际协议(IP)网络)上提供网络服务(例如,层2(L2,数据链路层)和/或层3(L3,网络层)服务)的覆盖网络(有时被称为网络虚拟覆盖)。
网络虚拟边缘(NVE)位于底层网络的边缘处,并参与实现网络虚拟化;NVE的面向网络侧使用底层网络向其他NVE隧道传输帧以及隧道传输来自其他NVE的帧;NVE的面向外部侧向网络外部的系统发送数据和从网络外部的系统接收数据。虚拟网络实例(VNI)是NVE上虚拟网络的特定实例(例如,ND上的NE/VNE、ND上NE/VNE的一部分,其中,通过仿真将该NE/VNE分为多个VNE);可以在NVE上实例化一个或多个VNI(例如,作为ND上的不同VNE)。虚拟接入点(VAP)是NVE上用于将外部系统连接到虚拟网络的逻辑连接点;VAP可以是通过逻辑接口标识符(例如,VLAN ID)来识别的物理或虚拟端口。
网络服务的示例包括:1)以太网LAN仿真服务(类似于互联网工程任务组(IETF)多协议标签交换(MPLS)或以太网VPN(EVPN)服务的基于以太网的多点服务),其中,外部系统通过基于底层网络的LAN环境跨网络互连(例如,NVE针对不同的这种虚拟网络提供分离的L2VNI(虚拟交换实例),以及提供跨底层网络的L3(例如,IP/MPLS)隧道传输封装);以及2)虚拟化IP转发服务(从服务定义角度来说,类似于IETF IP VPN(例如,边界网关协议(BGP)/MPLS IPVPN RFC 4364)),其中,外部系统通过基于底层网络的L3环境跨网络互连(例如,NVE针对不同的这种虚拟网络提供分离的L3 VNI(转发和路由实例),以及提供跨底层网络的L3(例如,IP/MPLS)隧道传输封装)。网络服务还可以包括服务质量能力(例如,业务分类标记、业务调节(conditioning)和调度)、安全能力(例如,用于保护客户住宅免受源自网络的攻击的过滤器,以避免有缺陷的路由公告)、以及管理能力(例如,完全检测和处理)。
图5D示出了根据本发明一些实施例的在图5A的每个ND上具有单一网元的网络,且在该直观方案中,对比了(传统路由器常用的)传统分布式方案与用于维护可达性和转发信息(也被称为网络控制)的集中式方案。具体地,图5D示出了具有与图5A的ND 500A-H相同连接性的网元(NE)570A-H。
图5D示出了分布式方案572将用于生成可达性和转发信息的责任分布在NE 570A-H上;换言之,邻居发现和拓扑发现的过程是分布式的。
例如,在使用专用网络设备502的情况下,ND控制平面524的控制通信和配置模块532A-R通常包括用于实现一个或多个路由协议的可达性和转发信息模块(例如,诸如边界网关协议(BGP)(RFC 4271)之类的外部网关协议、内部网关协议(IGP)(例如,开放最短路径优先(OSPF)(RFC 2328和5340)、中间系统对中间系统(IS-IS)(RFC 1142)、路由信息协议(RIP)(版本1RFC 1058、版本2RFC 2453、以及下一代RFC2080))、标签分布协议(LDP)(RFC5036)、资源预留协议(RSVP)(RFC2205、2210、2211、2212、以及RSVP-业务工程(TE):用于LSP隧道的RSVP扩展RFC 3209、通用多协议标签交换(GMPLS)信令RSVP-TE RFC3473、RFC3936、4495、以及4558)),其与其他NE通信以交换路由,然后基于一个或多个路由度量来选择那些路由。从而,NE 570A-H(例如,执行控制通信和配置模块532A-R的计算资源512)通过分布式地确定网络内的可达性并计算其各自的转发信息来执行其参与控制如何路由(例如,数据的下一跳以及该数据的输出物理NI)数据(例如,分组)的责任。路由和邻接关系存储在ND控制平面524上的一个或多个路由结构中(例如,路由信息库(RIB)、标签信息库(LIB)、一个或多个邻接关系结构)。ND控制平面524使用基于路由结构的信息(例如,邻接关系和路由信息)对ND转发平面526编程。例如,ND控制平面524将邻接关系和路由信息编程到ND转发平面526上的一个或多个转发表534A-R(例如,转发信息库(FIB)、标签转发信息库(LFIB)、以及一个或多个邻接关系结构)中对于层2转发,ND可以存储一个或多个桥接表,该一个或多个桥接表用于基于该数据中的层2信息来转发数据。尽管上面的示例使用了专用网络设备502,相同的分布式方案572可以实现在通用网络设备504和混合网络设备506上。
图5D示出了集中式方案574(也被称为软件定义的联网(SDN)),其将做出与从底层系统(该底层系统向所选目的地转发业务)发送业务的位置有关的决定的系统加以去耦合。所示出的集中式方案574具有用于在集中式控制平面576(有时被称为SDN控制模块、控制器、网络控制器、开放流控制器、SDN控制器、控制平面节点、网络虚拟化机构、或管理控制实体)中生成可达性和转发信息的责任,并从而使得邻居发现和拓扑发现的过程集中式。集中式控制平面576具有针对数据平面580(有时被称为基础架构层、网络转发平面、或转发平面(其不应当与ND转发平面相混淆))的南向接口(south bound interface)582,该数据平面580包括NE 570A-H(有时被称为交换机、转发元素、数据平面元素、或节点)。集中式控制平面576包括网络控制器578,网络控制器578包括确定网络内的可达性并通过南向接口582向数据平面580的NE 570A-H分发转发信息的集中式可达性和转发信息模块579(其可以使用开放流协议)。从而,在通常与ND分离的电子设备上执行的集中式控制平面576中将网络情报(network intelligence)集中式。
例如,在数据平面580中使用专用网络设备502的情况下,ND控制平面524的每个控制通信和配置模块532A-R通常包括提供南向接口582的VNE侧的控制代理。在该情况下,ND控制平面524(执行控制通信和配置模块532A-R的计算资源512)通过与集中式控制平面576通信的控制代理来执行其参与控制如何路由(例如,数据的下一跳和该数据的输出物理NI)数据(例如,分组)的责任,以从集中式可达性和转发信息模块579接收转发信息(以及在一些情况下的可达性信息)(应当理解:在本发明的一些实施例中,除了与集中式控制平面576通信之外,控制通信和配置模块532A-R还可以在确定可达性和计算转发信息时扮演某个角色,尽管不像分布式方案情况下那么多;这种实施例一般被视为落入集中式方案574中,但也可以被视为是混合方案)。
尽管上述示例使用了专用网络设备502,可以使用通用网络设备594和混合网络设备506来实现同样的集中式方案574(例如,每个VNE560A-R通过与集中式控制平面576通信来执行其控制如何路由(例如,该数据的下一跳和该数据的输出物理NI)数据(例如,分组)的责任,以从集中式可达性和转发信息模块579接收转发信息(以及在一些情况下,可达性信息);应当理解:在本发明的一些实施例中,除了与集中式控制平面576通信之外,VNE560A-R还可以在确定可达性和/或计算转发信息时扮演某个角色,尽管不像分布式方案情况下那么多)。事实上,对SDN技术的使用可以增强通常在通用网络设备504或混合网络设备506实现中使用的NFV技术,因为NFV能够通过提供其上可以运行SDN软件的基础架构来支持SDN,且因为NFV和SDN都打算利用商品服务器硬件和物理交换机。
图5D还示出了集中式控制平面576具有针对应用层586的北向接口584,在应用层2286中驻留有应用588。集中式控制平面586具有针对应用588来形成虚拟网络592(有时被称为逻辑转发平面、网络服务、或覆盖网络(且数据平面580的NE 570A-H是底层网络))的能力。从而,集中式控制平面576维护所有ND和所配置的NE/VNE的全局视图,且其将虚拟网络高效地映射到底层ND(包括当物理网络通过硬件(ND、链路、或ND组件)故障、添加或移除来进行改变时维护这些映射)
尽管图5D示出了与集中式方案574不同的分布式方案572,在本发明的某些实施例中,网络控制的工作可以用不同方式分布或者这二者可以结合。例如:1)实施例一般可以使用集中式方案(SDN)574,但是具有委托给NE的某些功能(例如,分布式方案可以用于实现故障监视、性能监视、保护切换、以及用于邻居和/或拓扑发现的基元(primitive)中的一项或多项);或者2)本发明的实施例可以经由集中式控制平面和分布式协议这二者来执行邻居发现和拓扑发现,且比较结果以在它们不一致的地方提出异常。这种实施例一般被视为落入集中式方案574中,但也可以被视为是混合方案。
尽管图5D示出了每个ND 500A-H实现单一NE 570A-H的简单情况,应当理解:参照图5D描述的网络控制方案同样适用于一个或多个ND500A-H实现多个VNE(例如,VNE 530A-R、VNE 560A-R、在混合网络设备506中的那些)的网络。备选地或附加地,网络控制器578还可以对在单一ND中实现多个VNE加以仿真。具体地,取代(或除了)在单一ND中实现多个VNE(之外),网络控制器578(还)可以将单一ND中的VNE/NE的实现呈现为虚拟网络592中的多个VNE(在同一个虚拟网络592中的全部、不同虚拟网络592中的每一个、或某种组合)。例如,网络控制器578可以使得ND在底层网络中实现单一VNE(NE),然后对集中式控制平面576内的该NE的资源进行逻辑分割,以在虚拟网络592中呈现不同的VNE(其中,底层网络中的这些不同VNE共享底层网络中ND上的单一VNE/NE实现的资源)。
另一方面,图5E和5F分别示出了NE和VNE的示例抽象,网络控制器578可以将其作为不同的虚拟网络592的一部分来呈现。图5E示出了根据本发明一些实施例的以下简单情况:ND 500A-H中的每一个实现单一NE 570A-H(参见图5D),而集中式控制平面576将不同ND中的多个NE(NE 570A-C和G-H)抽象为(以表示)图5D的虚拟网络592之一中的单一NE 570I。图5E示出了:在该虚拟网络中,NE 570I耦合到NE 570D和570F,他们都依然耦合到NE 570E。
图5F示出了根据本发明一些实施例的以下情况:在不同ND(ND500A和ND 500H)上实现多个VNE(VNE 570A.1和VNE 570H.1)并且多个VNE彼此耦合,以及集中式控制平面576将这些多个VNE加以抽象,使得他们表现为图5D的虚拟网络592之一中的单一VNE 570T。从而,NE或VNE的抽象可以跨多个ND。
尽管本发明的一些实施例将集中式控制平面576时限为单一实体(例如,单一电子设备运行的软件的单一实例),备选实施例可以出于冗余和/或可扩缩性的目的将功能分散在多个实体上(例如,不同电子设备上运行的软件的多个实例)。
类似于网络设备实现,可以用各种方式(例如,专用设备、通用(例如,COTS)设备、或混合设备)来实现集中式控制平面576上运行的电子设备,且从而实现包括集中式可达性和转发信息模块579在内的网络控制器578。这些电子设备将类似地包括计算资源、一个或多个物理NIC的集合、以及其上存储有集中式控制平面软件的非瞬时机器可读存储介质。例如,图6示出了包括硬件640的通用控制平面设备604,硬件640包括一个或多个处理器642(其通常是COTS处理器)的集合和网络接口控制器644(NIC;也称为网络接口卡)(其包括物理NI 646)以及其中存储有集中式控制平面(CCP)软件650的非暂时性机器可读存储介质648。
在使用计算虚拟化的实施例中,处理器642通常执行软件以实例化虚拟化层654和软件容器662A-R(例如,利用操作系统级别的虚拟化,虚拟化层654表示允许创建多个软件容器662A-R(表示单独的用户空间实例,也称为虚拟化引擎、虚拟专用服务器或狱)的操作系统的内核(或在基本操作系统上执行的垫片),软件容器662A-R中的每一个可以用来执行一个或多个应用的集合;在完全虚拟化的情况下,虚拟化层654表示管理程序(有时称为虚拟机监视器(VMM))或在主机操作系统之上执行的管理程序,并且软件容器662A-R均表示软件容器的紧密隔离形式(称为由管理程序运行的虚拟机),并且可以包括访客操作系统;在准虚拟化(para-virtualization)的情况下,与虚拟机一起运行的操作系统或应用可能会意识到存在用于优化目的的虚拟化)。同样,在使用计算虚拟化的实施例中,在操作期间,在虚拟化层654上的软件容器662A内执行CCP软件650的实例(示出为CCP实例676A)。在不使用计算虚拟化的实施例中,在主机操作系统之上的CCP实例676A在“纯金属”通用控制平面设备604上执行。CCP实例676A的实例化以及虚拟化层654和软件容器662A-R(如果实现的话)统称为软件实例652。
在一些实施例中,CCP实例676A包括网络控制器实例678。网络控制器实例678包括:集中式可达性和转发信息模块实例679(其是向操作系统提供网络控制器578的上下文并与各种NE通信的中间件层)、以及中间件层上的CCP应用层680(有时被称为应用层)(提供各种网络操作所要求的情报,例如协议、网络情景察觉、以及用户接口)。在更为抽象的级别上,集中式控制平面576中的该CCP应用层680使用虚拟网络视图(网络的逻辑视图)来工作,且中间件层提供从虚拟网络到物理视图的转换。
集中式控制平面576基于针对每个流的CCP应用层680计算和中间件层映射向数据平面580发送相关消息。流可以被定义为具有匹配给定比特模式的报头的分组集合;在该意义下,传统IP转发也是基于流的转发,其中,通过例如目的IP地址来定义流;然而,在其他实现中,用于流定义的给定比特模式可以在分组报头中包括更多的字段(例如,10个或更多个)。数据平面580的不同ND/NE/VNE可以接收不同消息,且从而接收不同的转发信息。数据平面580处理这些消息,并将恰当的流信息和对应动作编程到恰当NE/VNE的转发表(有时被称为流表)中,然后NE/VNE可以将进入的分组映射到转发表中表示的流,并基于转发表中的匹配来转发分组。
诸如开放流之类的标准定义了用于消息的协议以及用于处理分组的模型。用于处理分组的模型包括:报头解析、分组分类、以及做出转发决定。报头解析描述了如何基于已知的协议集合来解释分组。一些协议字段用于构建匹配结构(或键),该匹配结构(或键)将在分组分类中使用(例如,第一键字段可以是源媒体访问控制(MAC)地址,以及第二键字段可以是目的MAC地址)。
分组分类涉及在存储器中执行查找,以通过基于转发表条目的匹配结构、或键来确定转发表中的哪个条目(也被称为转发表条目或流条目)最佳匹配分组对分组进行分类。转发表条目中表示的很多流可以对应于/匹配分组是可能的;在该情况下,系统通常被配置为根据定义方案从很多转发表条目中确定一个转发表条目(例如,选择匹配的第一个转发表条目)。转发表条目包括匹配标准的特定集合(值集合或通配符、或者对分组的什么部分应当与特定值/多个特定值/通配符进行比较的指示(如匹配能力所定义的,针对分组报头中的特定字段或者对于某个其他分组内容))以及在接收到匹配分组时针对数据平面要采取的一个或多个动作的集合。例如,动作可以是:针对使用特定端口的分组,将报头推压到分组上,对分组进行泛洪(flood),或简单地丢弃该分组。从而,具有特定传输控制协议(TCP)目的端口的IPv4/IPv6分组的转发表条目可以包含指定这些分组应当被丢弃的动作。
基于在分组分类期间识别出的转发表条目,做出转发决定并执行动作通过针对分组来执行在匹配的转发表条目中识别出的动作集合来发生。
然而,当未知分组(例如,如开放流用语中使用的“错失分组”或“匹配错失”)到达数据平面580处时,通常向中心控制平面576转发该分组(或分组报头和内容的子集)。然后集中式控制平面576将转发表条目编程到数据平面580中,以适应属于该未知分组的流的分组。一旦集中式控制平面576将特定转发表条目编程到数据平面580中,则具有匹配凭证的下一个分组将匹配该转发表条目并采取与所匹配条目相关联的动作集合。
网络接口(NI)可以是物理或虚拟的;以及在IP的上下文中,接口地址是向NI指派的IP地址,不论是物理NI还是虚拟NI。虚拟NI可以与物理NI相关联、与另一虚拟接口相关联、或者是独立的(例如,环回接口、点对点协议接口)。NI(物理或虚拟)可以是有编号的(具有IP地址的NI)或无编号的(不具有IP地址的NI)。环回接口(及其环回地址)是经常用于管理用途的NE/VNE(物理或虚拟)的特定类型的虚拟NI(和IP地址);其中,这种IP地址被称为节点环回地址。向ND的NI指派的IP地址被称为该ND的IP地址;在更多粒度级别上,向ND上实现的NE/VNE指派的NI指派的IP地址可被称为该NE/VNE的IP地址。
尽管附图中的流程图示出了本发明的某些实施例执行的特定操作顺序,但是应当理解,这种顺序是示例性的(例如,备选实施例可以以不同的顺序执行操作、组合某些操作、某些操作相同等)。
虽然在若干实施例的意义上描述了本发明,本领域技术人员将会认识到:本发明不限于所描述的实施例,而是可利用在所附权利要求的精神和范围内的修改和改变来实现。本描述因此被视为是说明性的,而非限制性的。

Claims (9)

1.一种由充当边界网关协议BGP发言者的网络设备实现的揭示所述网络设备的最大分段标识符深度MSD值的方法,所述方法包括:
将所述MSD值编码(202)到BGP链路状态BGP-LS扩展消息中,其中,所述BGP-LS扩展消息包括类型、长度和MSD值,且所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度以及所述MSD值指示针对所述网络设备的每个链路的用于实现分段路由的最低MSD值;以及
向网络控制器发送(204)包括所述类型、所述长度和所述MSD值的所述BGP-LS扩展消息,其中,所述MSD值适于由所述网络控制器使用来计算包括所述网络设备的分段路由路径。
2.根据权利要求1所述的方法,其中,所述网络设备是所述分段路由路径的入口节点。
3.一种充当边界网关协议BGP发言者的网络设备,其中,所述网络设备被配置为要与网络控制器耦合,所述网络设备包括:
处理器和存储器,所述存储器包含能够由所述处理器执行的指令,由此所述网络设备用于:
将所述网络设备的最大分段标识符深度MSD值编码(202)到BGP链路状态BGP-LS扩展消息中,其中,所述BGP-LS扩展消息包括类型、长度和MSD值,且所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度以及所述MSD值指示针对所述网络设备的每个链路的的用于实现分段路由的最低MSD值;以及
向所述网络控制器发送(204)包括所述类型、所述长度和所述MSD值的所述BGP-LS扩展消息,其中,所述MSD值适于由所述网络控制器使用来计算包括所述网络设备的分段路由路径。
4.根据权利要求3所述的网络设备,其中,所述网络设备是所述分段路由路径的入口节点。
5.一种提供指令的非暂时性机器可读存储介质,如果所述指令被充当边界网关协议BGP发言者并与网络控制器耦合的网络设备的处理器执行,将使得所述处理器执行包括以下各项的操作:
将所述网络设备的最大分段标识符深度MSD值编码(202)到BGP链路状态BGP-LS扩展消息中,其中,所述BGP-LS扩展消息包括类型、长度和MSD值,且所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度以及所述MSD值指示针对所述网络设备的每个链路的用于实现分段路由的最低MSD值;以及
向所述网络控制器发送(204)包括所述类型、所述长度和所述MSD值的所述BGP-LS扩展消息,其中,所述MSD值适于由所述网络控制器使用来计算包括所述网络设备的分段路由路径。
6.根据权利要求5所述的非暂时性机器可读存储介质,其中,所述网络设备是所述分段路由路径的入口节点。
7.一种网络控制器中的方法,所述方法包括:
从充当边界网关协议BGP发言者的网络设备接收(302)BGP链路状态BGP-LS扩展消息;
对所述BGP-LS扩展消息进行解码(304),以提取所述网络设备的最大分段标识符深度MSD值,其中,所述BGP-LS扩展消息包括类型、长度和MSD值,所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度,所述MSD值指示针对所述网络设备的每个链路的用于实现分段路由的最低MSD值;以及
使用所述MSD值计算(306)包括所述网络设备的分段路由SR路径,其中,所述SR路径具有低于或等于所述MSD值的标签堆栈深度。
8.一种网络控制器,包括:
处理器和存储器,所述存储器包含能够由所述处理器执行的指令,由此所述网络控制器用于:
从充当边界网关协议BGP发言者的网络设备接收(302)BGP链路状态BGP-LS扩展消息;
对所述BGP-LS扩展消息进行解码(304),以提取所述网络设备的最大分段标识符深度MSD值,其中,所述BGP-LS扩展消息包括类型、长度和MSD值,所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度,所述MSD值指示针对所述网络设备的每个链路的用于实现分段路由的最低MSD值;以及
使用所述MSD值计算(306)包括所述网络设备的分段路由SR路径,其中,所述SR路径具有低于或等于所述MSD值的标签堆栈深度。
9.一种提供指令的非暂时性机器可读存储介质,如果所述指令被网络控制器的处理器执行,将使得所述处理器执行包括以下各项的操作:
从充当边界网关协议BGP发言者的网络设备接收(302)BGP链路状态BGP-LS扩展消息;
对所述BGP-LS扩展消息进行解码(304),以提取所述网络设备的最大分段标识符深度MSD值,其中,所述BGP-LS扩展消息包括类型、长度和MSD值,所述类型指示所述MSD值的类型,所述长度指示所述MSD值的长度,所述MSD值指示针对所述网络设备的每个链路的用于实现分段路由的最低MSD值;以及
使用所述MSD值计算(306)包括所述网络设备的分段路由SR路径,其中,所述SR路径具有低于或等于所述MSD值的标签堆栈深度。
HK18107513.3A 2015-07-02 2016-06-29 揭示最大分段标识符深度值的方法、设备和存储介质 HK1248417B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562188402P 2015-07-02 2015-07-02
US62/188,402 2015-07-02
US14/846,342 2015-09-04
US14/846,342 US9967184B2 (en) 2015-07-02 2015-09-04 Using border gateway protocol to expose maximum segment identifier depth to an external application
PCT/IB2016/053905 WO2017002046A1 (en) 2015-07-02 2016-06-29 Using border gateway protocol to expose maximum segment identifier depth to an external application

Publications (2)

Publication Number Publication Date
HK1248417A1 HK1248417A1 (zh) 2018-10-12
HK1248417B true HK1248417B (zh) 2021-04-23

Family

ID=

Similar Documents

Publication Publication Date Title
US11271855B2 (en) Using border gateway protocol to expose maximum segment identifier depth to an external application
CN107005481B (zh) 用于网络中数据平面故障检测的装置及其中的方法
CN108702326B (zh) 检测sdn控制平面循环的方法、设备和非暂时性机器可读介质
EP3417580B1 (en) Techniques for exposing maximum node and/or link segment identifier depth utilizing is-is
US11968082B2 (en) Robust node failure detection mechanism for SDN controller cluster
EP3417579B1 (en) Techniques for exposing maximum node and/or link segment identifier depth utilizing ospf
US9774504B2 (en) Route refresh mechanism for border gateway protocol link state
US11463399B2 (en) Efficient network address translation (NAT) in cloud networks
WO2018033769A1 (en) Segment routing based on maximum segment identifier depth
US12244495B2 (en) Method and apparatus for layer 2 route calculation in a route reflector network device
WO2017089945A1 (en) Mechanism to improve control channel efficiency by distributing packet-ins in an openflow network
US12113705B2 (en) Controller watch port for robust software defined networking (SDN) system operation
HK1248417B (zh) 揭示最大分段标识符深度值的方法、设备和存储介质