[go: up one dir, main page]

CN102346707B - 服务器系统与其操作方法 - Google Patents

服务器系统与其操作方法 Download PDF

Info

Publication number
CN102346707B
CN102346707B CN201010243788.0A CN201010243788A CN102346707B CN 102346707 B CN102346707 B CN 102346707B CN 201010243788 A CN201010243788 A CN 201010243788A CN 102346707 B CN102346707 B CN 102346707B
Authority
CN
China
Prior art keywords
hardware
node management
abstraction layer
management unit
hardware abstraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010243788.0A
Other languages
English (en)
Other versions
CN102346707A (zh
Inventor
赖德贤
陈谕正
龚景富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Priority to CN201010243788.0A priority Critical patent/CN102346707B/zh
Publication of CN102346707A publication Critical patent/CN102346707A/zh
Application granted granted Critical
Publication of CN102346707B publication Critical patent/CN102346707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

服务器系统与其操作方法,该操作方法包括:(A)在硬件抽象层的控制下,多个节点管理单元共用一硬件资源;(B)当这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元送出一指令或一数据至该硬件抽象层,该硬件抽象层据以代替该节点管理单元来使用该硬件资源;以及(C)若接收到一外部指令,则该硬件抽象层辨别该外部指令是由该硬件资源的那一个传输端口所接收,以传送至一相对应节点管理单元执行,且当该外部指令被执行后,该相对应节点管理单元将一信息回传给该硬件抽象层,以由该硬件抽象层将该信息由该传输端口回传给一外部系统管理者。

Description

服务器系统与其操作方法
技术领域
本发明涉及一种服务器系统与其操作方法。 
背景技术
传统上,刀锋型服务器(blade server)已广泛地应用在多种应用场合中。一般来说,为数众多的刀锋型服务器集合在机架(chassis)系统中,藉此提升使用者的操作便利性。刀锋型服务器将计算机服务工作站中所有计算机服务系统的核心运算电路丛集在一起。系统管理人员负责对计算机服务工作站内部的各计算机服务系统及网络配置进行维护及控管。藉此,系统管理人员可以对丛集在一起的多台计算机服务系统进行维护及控管。 
以目前而言,服务器对节点(node)的管理主要是遵循IPMI(IntelligentPlatform Management Interface,智慧型平台管理接口)的规范,利用BMC(Baseboard Management Controller,基板管理控制器)来进行节点监控、记录及错误恢复等功能。在此所谓的节点指的是具有独立运算能力的运算单元,其至少包括CPU(中央处理单元)与存储器等。在目前市面上的产品而言,单一BMC只能管理单一节点,无法同时管理多个节点。此外,在已知技术中,机架系统内会有硬件式CMM(Chassis Management Module,机架管理模块),以管理整个机架系统。 
随着云端技术的发展,对数据中心(data center)的需求日益增加,而如何能在有限的机房空间中放置更多的节点以提高运算能力乃是发展重点。 
本申请提出一种服务器系统及其操作方法,其能有效减少BMC芯片数量,以让服务器内的板卡空间增加,以利放置更多节点来提高运算能力,并可降低服务器成本。 
发明内容
本发明涉及一种服务器系统及其操作方法,其通过一硬件抽象层使得BMC的多个节点管理单元(其为软件,各别用于管理一节点)能共用BMC的硬件资源。
根据本发明的一实施例,提出一种服务器系统,包括:至少一系统板,该系统板包括一基板管理控制器与多个节点,该基板管理控制器包括多个节点管理单元、一硬件抽象层与一硬件资源,这些节点管理单元分别管理这些节点,在该硬件抽象层的控制下,这些节点管理单元共用该硬件资源;一连接端口,用以连接至一外部系统管理者;以及一内部通道,连接至该系统板与该连接端口。 
根据本发明的另一实施例,提出一种服务器系统的操作方法,该服务器系统包括至少一系统板,该系统板包括一基板管理控制器与多个节点,该基板管理控制器包括多个节点管理单元、一硬件抽象层与一硬件资源,这些节点管理单元分别管理这些节点。该方法包括:(A)在该硬件抽象层的控制下,这些节点管理单元共用该硬件资源;(B)这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元送出一指令或一数据至该硬件抽象层,该硬件抽象层据以代替该节点管理单元来使用该硬件资源;以及(C)若接收到一外部指令,则该硬件抽象层辨别该外部指令是由该硬件资源的那一个传输端口所接收,以传送至一相对应节点管理单元执行,且当该外部指令被执行后,该相对应节点管理单元将一信息回传给该硬件抽象层,以由该硬件抽象层将该信息由该传输端口回传给一外部系统管理者。 
为了对本发明的上述及其他方面有更佳的了解,下文特举优选实施例,并配合附图,作详细说明如下: 
附图说明
图1显示根据本发明实施例的机架系统示意图。 
图2显示根据本发明实施例的BMC的示意图。 
图3显示多个NMU通过HAL来共用BMC的硬件部分的示意图。 
图4A~图4C显示根据本发明实施例的通过HAL而转送指令/信息的示意图。 
【主要元件符号说明】 
100:机架系统    101:连接端口 
102:区域网络    103:I2C总线 
110~130:系统板        111、121、131:BMC 
112-1~112-Y、122-1~122-Y、132-1~132-Y:节点 
211:HAL                212-1~212-Y:节点管理单元 
221:GPIO引脚           222:存储单元 
223:串行端口           224:感应单元 
225:系统接口           226:LAN接口 
227:I2C接口            410:系统管理者 
421~466:步骤 
具体实施方式
在本发明实施例中,单一BMC可以管理多个节点。在本发明实施例中,通过HAL(Hardware Abstraction Layer,硬件抽象层)以将BMC从单一节点管理扩充为多节点管理,并仍完全相容IPMI规范。如此,可以有效降低机架系统中的BMC芯片数量,不仅可以降低成本,也可以节省空间,且可降低机架系统的内部环境温度。 
图1显示根据本发明实施例的机架系统示意图。如图1所示,根据本发明实施例的机架系统100至少包括:连接端口101、LAN(Local AreaNetwork,局域网)102、I2C(Inter-Integrated Circuit,内部集成电路)总线103、以及多个系统板。虽然图1中以机架系统100包括3个系统板110~130为例,但知本发明实施例并不受限于此。系统板110包括:BMC 111与节点112-1~112-Y;系统板120包括:BMC 121与节点122-1~122-Y。系统板130包括:BMC 131与节点132-1~132-Y。在此,Y为正整数。 
系统管理者所发出的指令与信号等可通过连接端口101而传送至相对应的系统板。当然,由系统板所发出的讯息可通过连接端口101而传回至系统管理者。 
如图1所示,LAN 102与I2C总线103提供这些系统板的BMC之间的互相沟通路径。此外,在本发明其他实施例中,BMC还可选择性具有CMM功能。 
图2显示根据本发明实施例的BMC的示意图。如图2所示,BMC包括硬件部分与软件部分。BMC的软件部分包括:HAL 211与节点管理单元(NMU,Node Management Unit)212-1~212-Y。BMC的硬件部分包括: GPIO(General Purpose Input/Output,一般用途输入/输出)引脚221、存储单元222、串行端口223、感应单元224、系统接口(System Interface,简称SI)225、LAN接口226与I2C接口227。 
对于每个节点而言,BMC会读取感应单元224的读数来监控节点的物理参数(如CPU温度、存储器温度、电压等等)。举例而言,BMC可能会有三个CPU温度感测器,分别感测其所管理的三个节点的内部CPU的温度。而且,BMC通过GPIO引脚221来控制系统的开关机。另外,系统管理者可以通过LAN接口226或系统接口225等接口来传送IPMI指令给BMC,以要求BMC执行IPMI指令。 
NMU为实现IPMI规范的管理软件。亦即,以BMC 111而言,NMU1~NMU 3可分别用于管理节点112-1~112-3。在本发明实施例中,由于用单一BMC来管理多个节点的关系,多个NMU必需要共用BMC的硬件部分,因此硬件抽象层(HAL)211可用于解决此议题。HAL 211会为每个NMU建立一套逻辑(虚拟)硬件装置,并与实体硬件装置作对应关系。 
图3显示多个NMU通过HAL来共用BMC的硬件部分的示意图。如图3所示,当NMU欲存取SDR(Sensor Data Record,感应数据记录)时,NMU并不需要知道节点的SDR实际在存储单元222的存取地址。当NMU欲读取SDR数据时,NMU只要告诉HAL 211所要读取的是其对应节点的那一笔SDR数据(其比如为CPU温度、存储器温度、施加电压等),HAL 211即会将此NMU所对应的节点的该笔SDR数据回传给NMU。SDR1~SDR3分别代表节点1~3的SDR数据,其分别对应于NMU 1~NMU 3。 
同样地,当NMU欲存储SDR数据时,NMU也不需要知道节点的SDR实际在存储单元222的存储地址。当NMU欲存储SDR数据时,NMU只要将欲存储的SDR数据传给HAL 211,HAL 211即会将此SDR数据存储至存储单元222内。也就是说,HAL 211会进行对应(mapping),以将NMU所欲存/取的数据对应至存储单元222。 
SEL乃是系统事件记录(System Event Log),其用以存储节点的系统事件(比如系统异常等)。相似地,当NMU 1~NMU 3欲存取SEL 1~SEL 3时,也是由HAL 211负责存/取存储单元222,如同上述般。FRU是现场可替代单元(Field Replaceable Unit),其记录此系统板的编号、产品名称等系统信息。相似地,当NMU 1~NMU 3欲存取FRU 1~FRU 3时,也是由HAL 211 负责存取存储单元222,如同上述般。更甚者,HAL 211所能负责数据对应的功能并不仅局限于SDR、SEL及FRU。IPMI规范所提及的其他功能,例如网络连线序列(SOL,Serial Over LAN)、平台事件滤波(PEF,Platform EventFilter)、感应监控(Sensor Monitor)、机架控制(Chassis Control)等,NMU均可通过HAL达成对应或转送的功能。 
图4A~图4C显示根据本发明实施例的通过HAL而转送指令/信息的示意图。如图4A所示,系统管理者410与HAL 211之间的沟通是双向的,而且HAL 211与NMU之间的沟通也是双向的。 
图4B显示系统管理者410通过HAL 211而传送IPMI指令给BMC的示意图。如图4B所示,系统管理者410会传送IPMI指令给HAL 211。接着,HAL 211判断此IPMI指令是经由系统接口(SI)传输而来(如步骤421所示)或是经由LAN接口(LAN)传输而来(如步骤422所示)。如果IPMI指令是经由SI传输而来,则HAL 211接着判断此IPMI是由系统接口的第一个传输端口SI 1(其对应至节点1)、第二个传输端口SI 2(其对应至节点2)或第三个传输端口SI 3(其对应至节点3)而来,如步骤431~433所示。亦即,在本实施例中,BMC的系统接口有多个SI传输端口,其中有3个SI传输端口用以使BMC连接至系统管理者410。如果IPMI指令是经由LAN接口传输而来,则HAL 211接着判断此IPMI是由LAN接口的第一个传输端口LAN 1(其对应至节点1)、第二个传输端口LAN 2(其对应至节点2)或第三个传输端口LAN 3(其对应至节点3)而来,如步骤434~436所示。亦即,在本实施例中,BMC的LAN接口有多个LAN传输端口,其中有3个LAN传输端口用以使BMC连接至系统管理者410。HAL 211经过步骤431~436的判断之后,HAL会判断出系统管理者410所送来的此IPMI指令是要给NMU1~NMU 3的那一个,接着,HAL 211将此IPMI指令送给目的NMU。 
图4C显示BMC通过HAL 211回传信息给系统管理者410的示意图。当NMU接收到系统管理者410所传来的IPMI指令后,此NMU会进行相对应的操作,之后,此NMU会将回应信息通过HAL 211而传回给系统管理者410。如图4C所示,NMU会送出回应信息给HAL 211。接着,HAL 211判断此回应信息是经由系统接口(SI)而接收到(如步骤441)或经由LAN接口而接收到(如步骤442)。如果此回应信息是经由系统接口而接收到,HAL 211分析所接收到的回应信息,HAL 211可判断此回应信息是由那一个NMU 所发出(步骤451~453及步骤454~456)。亦即,在本实施例中,BMC的系统接口有多个SI传输端口,其中有3个SI传输端口用以使系统管理者410连接至BMC;且BMC的LAN接口有多个LAN传输端口,其中有3个LAN传输端口用以使系统管理者410连接至BMC。HAL 211会判断NMU是否经由系统接口传送此回应信息,再判断此回应信息是由那一个NMU所发送(步骤451~453),如此,HAL 211即可将回应信息经由原接收接口(比如是SI)回传给系统管理者410(步骤461~463)。相似地,HAL 211会判断NMU是否经由LAN接口而传送回应信息,接着,HAL 211判断是此回应信息是由那一个NMU所发送(步骤454~456),即可将回应信息经由原接收接口(LAN接口)回传给系统管理者410(步骤464~466)。 
也就是说,在本发明实施例中,当系统管理者410通过LAN接口或系统接口传送IPMI指令给BMC时,HAL 211会辨别此IPMI指令是由那一个传输端口所接收并将指令送至相对应的NMU去执行。当NMU执行指令完毕,NMU会将信息回传给HAL 211,HAL 211会将此回应信息由原来的传输端口回传给系统管理者410。当然,本发明实施例并不受限于HAL 211只能经由LAN接口或系统接口来转送IPMI指令,HAL 211也可经由IPMI规范内所支持的接口来转送IPMI指令。 
综上所述,本发明实施例至少具有下列优点:(1)本发明实施例可减少在高密度服务器(如刀锋型服务器)所需要的BMC芯片数量,以减低成本;以及(2)本发明实施例可有效利用空间,增加服务器的节点个数及运算能力,并且有效降低系统的温度(因为BMC芯片数量减少)。 
综上所述,虽然本发明已以优选实施例公开如上,然其并非用以限定本发明。本本领域技术人员在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视所附权利要求书所界定者为准。 

Claims (8)

1.一种服务器系统,包括:
至少一系统板,该系统板包括一基板管理控制器与多个节点,该基板管理控制器包括多个节点管理单元、一硬件抽象层与一硬件资源,这些节点管理单元分别管理这些节点,在该硬件抽象层的控制下,这些节点管理单元共用该硬件资源;
一连接端口,用以连接至一外部系统管理者;以及
一内部通道,连接至该系统板与该连接端口,
其中,该系统板还包括多个传输端口,这些传输端口用以使该基板管理控制器连接至该外部系统管理者;
若一外部指令通过该硬件资源而传送至该基板管理控制器,则该硬件抽象层辨别该外部指令是由哪一个传输端口接收,以将该外部指令传送至一相对应节点管理单元执行;以及
当该相对应节点管理单元执行该外部指令后,该相对应节点管理单元将一信息回传给该硬件抽象层,以将该信息由该传输端口回传给该外部系统管理者。
2.如权利要求1所述的服务器系统,其中,该硬件抽象层为各节点管理单元建立一逻辑硬件装置,以对应至该硬件资源。
3.如权利要求2所述的服务器系统,其中,当这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元传送一指令至该硬件抽象层,该硬件抽象层根据该指令而存取该硬件资源并将一结果回传给该节点管理单元。
4.如权利要求2所述的服务器系统,其中,当这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元传送一数据至该硬件抽象层,该硬件抽象层根据该数据而存取该硬件资源。
5.一种服务器系统的操作方法,该服务器系统包括至少一系统板,该系统板包括一基板管理控制器与多个节点,该基板管理控制器包括多个节点管理单元、一硬件抽象层与一硬件资源,这些节点管理单元分别管理这些节点,该操作方法包括:
(A)在该硬件抽象层的控制下,这些节点管理单元共用该硬件资源;
(B)当这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元送出一指令或一数据至该硬件抽象层,该硬件抽象层据以代替该节点管理单元来使用该硬件资源;以及
(C)若接收到一外部指令,则该硬件抽象层辨别该外部指令是由该硬件资源的哪一个传输端口所接收,以传送至一相对应节点管理单元执行,且当该外部指令被执行后,该相对应节点管理单元将一信息回传给该硬件抽象层,以由该硬件抽象层将该信息由该传输端口回传给一外部系统管理者。
6.如权利要求5所述的操作方法,其中,该步骤(A)包括:
该硬件抽象层为各节点管理单元建立一逻辑硬件装置,以对应至该硬件资源。
7.如权利要求6所述的操作方法,其中,该步骤(B)包括:
当这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元传送该指令至该硬件抽象层,该硬件抽象层根据该指令而存取该硬件资源并将一结果回传给该节点管理单元。
8.如权利要求6所述的操作方法,其中,该步骤(B)包括:
当这些节点管理单元的其中之一节点管理单元欲使用该硬件资源时,该节点管理单元传送该数据至该硬件抽象层,该硬件抽象层根据该数据而存取该硬件资源。
CN201010243788.0A 2010-07-30 2010-07-30 服务器系统与其操作方法 Active CN102346707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010243788.0A CN102346707B (zh) 2010-07-30 2010-07-30 服务器系统与其操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010243788.0A CN102346707B (zh) 2010-07-30 2010-07-30 服务器系统与其操作方法

Publications (2)

Publication Number Publication Date
CN102346707A CN102346707A (zh) 2012-02-08
CN102346707B true CN102346707B (zh) 2014-12-17

Family

ID=45545402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010243788.0A Active CN102346707B (zh) 2010-07-30 2010-07-30 服务器系统与其操作方法

Country Status (1)

Country Link
CN (1) CN102346707B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529583B2 (en) * 2013-01-15 2016-12-27 Intel Corporation Single microcontroller based management of multiple compute nodes
TWI614613B (zh) * 2014-09-11 2018-02-11 廣達電腦股份有限公司 伺服器系統與其相關的控制方法
CN105988908B (zh) * 2015-02-04 2018-11-06 昆达电脑科技(昆山)有限公司 单一bmc多服务器的全局数据处理系统
US10587935B2 (en) * 2015-06-05 2020-03-10 Quanta Computer Inc. System and method for automatically determining server rack weight
CN105099776A (zh) * 2015-07-21 2015-11-25 曙光云计算技术有限公司 云服务器的管理系统
US10116750B2 (en) * 2016-04-01 2018-10-30 Intel Corporation Mechanism for highly available rack management in rack scale environment
CN108337307B (zh) * 2018-01-31 2021-06-29 郑州云海信息技术有限公司 一种多路服务器及其节点间通信方法
CN109271330A (zh) * 2018-08-16 2019-01-25 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于综合化信息系统的通用bmc系统
CN113970961A (zh) * 2021-10-25 2022-01-25 西安超越申泰信息科技有限公司 一种bios通过bmc控制散热的方法及服务器
CN118012807A (zh) * 2024-02-01 2024-05-10 超聚变数字技术有限公司 一种硬件设备的调用方法、系统、芯片和服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130969A1 (en) * 2002-01-10 2003-07-10 Intel Corporation Star intelligent platform management bus topology
CN1983987A (zh) * 2006-05-12 2007-06-20 华为技术有限公司 一种智能平台管理接口系统中的后插板监控装置
US20070233833A1 (en) * 2006-03-29 2007-10-04 Inventec Corporation Data transmission system for electronic devices with server units
CN101056205A (zh) * 2007-04-04 2007-10-17 杭州华为三康技术有限公司 一种基于atca架构服务器管理方法、系统及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130969A1 (en) * 2002-01-10 2003-07-10 Intel Corporation Star intelligent platform management bus topology
US20070233833A1 (en) * 2006-03-29 2007-10-04 Inventec Corporation Data transmission system for electronic devices with server units
CN1983987A (zh) * 2006-05-12 2007-06-20 华为技术有限公司 一种智能平台管理接口系统中的后插板监控装置
CN101056205A (zh) * 2007-04-04 2007-10-17 杭州华为三康技术有限公司 一种基于atca架构服务器管理方法、系统及其装置

Also Published As

Publication number Publication date
CN102346707A (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
TWI423039B (zh) 伺服器系統與其操作方法
CN102346707B (zh) 服务器系统与其操作方法
US8880687B1 (en) Detecting and managing idle virtual storage servers
US20200278880A1 (en) Method, apparatus, and system for accessing storage device
US9864517B2 (en) Actively responding to data storage traffic
US8095701B2 (en) Computer system and I/O bridge
EP2705433B1 (en) Method and system for dynamically creating and servicing master-slave pairs within and across switch fabrics of a portable computing device
US7921185B2 (en) System and method for managing switch and information handling system SAS protocol communication
US10346156B2 (en) Single microcontroller based management of multiple compute nodes
US20110145452A1 (en) Methods and apparatus for distribution of raid storage management over a sas domain
US11403141B2 (en) Harvesting unused resources in a distributed computing system
CN107835089B (zh) 管理资源的方法和装置
US20160080210A1 (en) High density serial over lan managment system
US20180081558A1 (en) Asynchronous Discovery of Initiators and Targets in a Storage Fabric
WO2022141250A1 (zh) 数据传输方法和相关装置
EP4172767B1 (en) Allocating memory and redirecting memory writes in a cloud computing system based on temperature of memory modules
WO2014206078A1 (zh) 内存访问方法、装置及系统
JP2017537404A (ja) メモリアクセス方法、スイッチ、およびマルチプロセッサシステム
JP6760579B2 (ja) ネットワークラインカード(lc)のホストオペレーティングシステム(os)への統合
WO2025086691A1 (zh) Rdma网络配置方法及服务器
US11294847B1 (en) Fibre channel host onboarding system
WO2019223444A1 (zh) 数据存储系统
CN115913817A (zh) 多通路虚拟化总线系统、控制方法、芯片及电子设备
US10209923B2 (en) Coalescing configuration engine, coalescing configuration tool and file system for storage system
CN104461951A (zh) 动态管理物理和虚拟多路径i/o的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant