云平台集群智能监控软件

云平台集群智能监控软件 简介

    云平台集群智能监控软件 由CUI(Clustertech User 接合宝库用户边线、集群能解决模块、作业修补模块、集群监控模块、集群布置模块、集群日记模块结成。崔网 通道根本模块,剩余部分功用模块可争辩用户请求解除结成。。。云平台转瞬即逝的智能监控软件的选模式与取得,可以扶助用户布置给予帮助体系。,增加和调试集群软件、涂周围与涂软件,换句话说,从武器装备知识。,一组可以运转的软件和检修,直到集群运转。。

云平台集群智能监控软件 新版本的主要特点是:

  • 孤独舞台场面设计设计,可争辩用户请求解除结成。;
  • 可以使杰出设置每个模块的用户入口力量。;
  • 倒退HA,戒单一毛病的工夫和不可注销的金钱损失;
  • 修补、监控模块倒退搬动航空站;
  • 经过体系边线,衔接混合词的SSH和VNC接合;
  • 肥沃的告警通讯,倒退阈值的自定义设置;
  • 令人敬畏的的记载能解决功用;
  • 倒退LDAP和NIS用户身份验证体系;
  • 自定义涂模板;
  • 肥沃的的音色通讯,输入PDF,Excel及剩余部分体式。

云平台集群智能监控软件 架构

    高功能集群普通可以分为武器装备层、体系软件层、集群软件层、涂周围层与涂层,云平台集群智能监控软件及互插检修、涂层以下三层。,体系软件层、集群软件层和涂周围层,这执意公约。HPC集群武器装备知识运转的根本条件,如下图所示:

    在集群软件层,云平台集群智能监控软件求婚集密集群、集群能解决、集群监控、作业修补、作业修补能解决、集群音色及剩余部分功用模块,同时求婚网页 通道取得接合彼此,而且,倒退HA功用。,戒单点毛病,冲击力集群体系的运转。这些功用集合能解决和监控T中个人财产混合词的资源。,取得了使结合成为整体的转瞬即逝的体系的单体系本能的。,用户只觉得运用高功能计算图表。。

    在涂周围层,单独可选的HPC器集,用于增加云平台集群智能、调试修补器、音讯发射库、算学库与编纂者,一项见下表:

功用

并列地命令

dvt,dsh,pcp,distcc

调试、调优器

Intel Vtune ,Intel Trace Collector/Analyser, Total View

音讯发射库

MPICH,MPICH2,MVAPICH,OpenMPi等

算学库

Intel MKL,Lapack,Scalapack,Goto,Blas…

编译顺序

GNU编译顺序, Intel 编译顺序

注:Intel编译顺序、Intel MKL、Intel Vtune、Intel Trace Collector/Analyser和Total VIEW是商业软件。。

云平台集群智能监控软件 功用绍介

.1  云平台集群智能监控软件 体系布置

    大规模集群体系,给予帮助体系和软件的布置一直是个成绩。:减轻反复把任务交给,但这是落落大方的把任务交给。云平台集群智能集成感情的中枢布置体系、复杂成功集群混合词的给予帮助体系和软件布置。在详述周围下,云平台转瞬即逝的智能监控软件可成功体系I。

    云平台转瞬即逝的智能监控软件布置体系,在密集合在前锋位置增加的把持台混合词。,自然的成功使结合成为整体的集群或古怪的混合词的巧妙地把持。、涂软件增加与一致体系拨给的场地与检修。

    云平台转瞬即逝的智能监控软件的体系布置,比方,以下愿意的:

  •   给予帮助体系版本选择、增加愿意的、增加次
  •   硬盘分区与大部分、记载体系典型
  •   体系IP地址设置、网卡绑定
  •   领袖称呼解析是敏捷的的。,命名药典可以是无论哪个契合详述的初步。、倘若手势与任性数的结成

.2 云平台集群智能监控软件 Web Portal

    云平台集群智能监控软件 Web 通道是云平台集群智能体的用户彼此边线,经过崔 (Clustertech User Bade de用户一致登陆平台将集群能解决、集群监控、作业修补、作业修补能解决、密集日记等杂多的功用模块的接合是UNIFI。,取得宝德自由权研究与功绩的一致诞,求婚用户能解决、检修器能解决和力量能解决功用,能解决员可认为每个模块设置对用户的入口力量。。

.2.1 用户能解决

    云平台集群智能监控软件集群体系CUI (Clustertech User InterfaceBao de用户一致登陆平台)新建、编纂用户(),设置主主题,用户附设组的承认。

检修能解决

    检修能解决是回答云平台集群智能监控软件的个人财产检修行动方向停下或重启等能解决巧妙地把持。倘若产生非常,则可以重行开端或能解决检修能解决页。。

.2.2 力量设定

    云平台集群智能监控软件集群体系CUI (Clustertech User InterfaceBao de用户一致登陆平台)设置用户力量,分派用户干的功用模块,体系能解决员可以严格把持用户力量。

.3 云平台集群智能监控软件集群能解决

    云平台集群智能监控的集群能解决 超越10, Google Chrome ,Firefox等)取得现场和遥远的的集群能解决和运用,包含混合词能解决、共享能解决、图像能解决与日记能解决的功能。

.3.1 混合词能解决

    云平台集群智能监控软件将混合词分为多个混合词、往事、计算和记载四分染色体角色能解决,每个角色的混合词可以由于角色的现实必要,使易于感光有关的检修。用户可以经过体系边线检查混合词的根本通讯,包含混合词ID、领袖名、MAC地址、IP地址、混合词资格、混合词其切中要害哪一个可以查阅作业资格和混合词典型等通讯。。

    用户还可以在命名混合词或个人财产混合词上停止根本巧妙地把持。,包含启齿、关机、立镜、回复镜像、并列地命令、回绝作业、容许查阅把任务交给等。。

    用户可以立即的从Web边线向混合词翻开混合词的VNC和SSH。,心不在焉剩余部分第三方着陆器。

.3.2 共享能解决

    经过云平台集群智能监控软件集群MANAG,用户可以经过体系 在接合上确立或使防护共享主题,编纂架置、拟出共享主题及剩余部分功用,无背景资料命令共享主题能解决,如下图所示:

.3.3 镜像能解决

    云平台集群智能监控软件可以经过。Web确立或使防护密集混合词(登陆混合词)的接合/往事混合词/计算混合词镜像,混合词体系伴奏回复功用的取得。同时,体系可以同时维修业务多个或恒等的的镜像版本。,取得多镜切换。

.3.4 日记能解决

    云平台集群智能监控软件集群日记能解决、转辙机资格、镜像巧妙地把持停止记载,扶助体系能解决员能力更强的地投合心意集群的运用。。

    并列地命令记载:运用并列地命令检查用户的输入结实;

    转辙机记载:检查用户在混合词上的启动、关机巧妙地把持的工夫、处置资格和处置结实;

    镜像巧妙地把持记载:检查用户图像处置的典型、工夫、确立或使防护混合词。

.4 云平台集群智能监控软件作业修补

.4.1 作业修补能解决

    云平台CULS的资源能解决与作业修补体系、无效能解决个人财产软武器装备资源和用户查阅的TA,极大值化集群体系的流率和有益。云平台集群智能监控软件修补能解决功用的Web的边线功用(不料能解决员用户才可巧妙地把持)包含:

  •    作业列表、队列列表和混合词资格查询;
  •   把任务交给修补与资源分派谋略的修补;
  •   检查和修正检修器设置、队列设置和混合词设置;
  •   能解决用户查阅的作业(拟出作业)、挂起这份把任务交给,解除这份把任务交给。;
  •   拨给的场地修补谋略,作业行政长官思索的事、资源拨给的场地的优选法拨给的场地等。;
  •   用户/用户集团谋略设置;
  •   资源预留拨给的场地。

    体系能解决员具有作业修补能解决功用。,经过云平台集群智能监控软件作业修补能解决功用体系能解决员可活跃的的修补谋略优选法资源的应用和增加作业的适应工夫,体系能解决员可明确的检查到每个混合词CPU的运用位置,经过拨给的场地资源能解决器和SHE来优选法集群体系。体系能解决员还可以经过云平台集群设置队列。,混合词设置,用户(组)行政长官思索的事设置和资源能解决,使复杂的集群资源修补能解决更轻易、一致、高效。

.4.2 作业查阅

    体系能解决员将查阅力量分派给家庭用户。,家庭用户可以经过体系图形接合查阅作业。云平台集群智能监控软件能解决体系SUP、Apple的并列地涂与资源能解决与修补。以下是云平台集群智能的作业查阅边线:

    家庭用户在查阅作业时还可设置多种谋略,命名查阅作业的混合词,设置作业输入记载体式,设置作业运转时和作业启动。、成功或停止时的指出和告警等通讯。。用户在查阅作业时可以节省谋略。,在查阅作业后,可以立即的叫来恒等的的设置。,为用户查阅作业求婚极大从容的。

    云平台集群智能监控软件作业查阅权,用户可以经过云平台CL监控软件记载能解决功用,体系记载的立即的能解决,新记载、编纂、向上负荷、下载、副本、剪下,贴,紧缩、减压等功用,如下图所示:

.4.3 作业修补谋略

    云平台转瞬即逝的智能监控体系的作业修补体系、自然的记载传输File Staging)、多把任务交给队列、多体系使成群、多把任务交给行政长官思索的事谋略与拨给的场地、多资源能解决与把任务交给最高级预留、QOS Quality of Service,包含检修男朋友和资源,功用入口把持、可拨给的场地混合词分派谋略、多种可拨给的场地的回填谋略backfill policies)、特别的体系诊断法system diagnostic下列和要紧杂多的资源的运用位置。详细修补谋略的拨给的场地是:

1) 队列设置:体系中有清楚的的队列。,一旦作业从修补体系进入有关的队列,将被分派给队列的拨给的场地属性,比方T,唤回等。。同时,队列也可以把持可以查阅给用户的用户。,或许队列最适当的运用少数混合词资源等。;

2) 混合词属性拨给的场地:用户可以争辩本人的CH拨给的场地混合词的清楚的属性。,混合异构簇(清楚的拨给的场地的新旧机具),混合词可以分为清楚的的池混合词。;

3) 把任务交给行政长官思索的事冲击力以代理商的身份行事:包含巧妙地把持源(用户)、组、队列、QoS)、集市分享(用户)、组、队列、QoS资源运用历史、作业专心致志资源(混合词号)、CORE号码、唤回等。、检修军衔(作业在队列体系中排队的工夫)、排队工夫与巧妙地把持所需工夫之比。、行政长官思索的事下面的第一汇成的作业的总量、决意检修军衔(决意队列工夫等)。;

4) 用户和用户集团的拨给的场地:可认为清楚的的用户和用户集团拨给的场地清楚的的行政长官思索的事。、清楚的的最大限制运用资源约束和运用QoS

5) 把任务交给回填:争辩作业的杂多的属性,云平台集群智能监控软件可以计算STA,少数高行政长官思索的事的把任务交给不克不及在必然的开端先发制人如愿以偿个人财产的资源。,在此先发制人,可以在无意义的资格下的少数计算混合词。。回填谋略,它可以在不冲击力高行政长官思索的事把任务交给的位置下成功。,将些许低行政长官思索的事的把任务交给回填到这些无意义的混合词,这么前进体系的赢利性。回填谋略包含:

a) Firstfit:扫描排队巧妙地把持,给予帮助可涂在回填窗口切中要害第单独作业。;

b)  Bestfit:扫描排队巧妙地把持,拔取可以最大平均的填饱回填窗口的作业。当干混合词的总量十足时,尝试用更多的混合词给予帮助更多的作业。;

c)  greedy:这是一种更根本的的回填谋略。,这种谋略疏忽了以前的把任务交给预定。,因而可以会冲击力到带预定的作业的鼻给予帮助工夫;

6) 集市共享:当某个用户或许用户集团在过来的第一段工夫内(比方七天)运用了很多体系资源,再,倘若剩余部分用户向体系查阅作业,这些用户把任务交给fareshare行政长官思索的事以代理商的身份行事大于用户(运用过多资源的行政长官思索的事)。fareshare高行政长官思索的事以代理商的身份行事;

7) 资源预留:能解决员可以在体系中设置工夫值。,从像这样工夫开端,在像这样工夫段,少数计算混合词将保留给些许用户。;

8) 行使职责行政长官购买权:愿意的包含注销出席的在运转的作业。、平息出席的巧妙地把持、出席的运转切中要害巧妙地把持Checkpoint(给予帮助体系倒退是本质的的。)、注销出席的巧妙地把持并将作业掉换为Q队列体系,行政长官购买的方式是:

a) 人工干涉;

b)  经过QoS的谋略;

c)  由于抢先、回填公约行政长官思索的事。默许位置下,不料在不冲击力高行政长官思索的事JO的巧妙地把持时才产生回填。,但经过要紧发展,落落大方的求职专心致志walltime工夫大于现实巧妙地把持。walltime工夫,换句话说,手术将提早成功。。由于抢先、回填公约行政长官思索的事的位置下,体系在回填窗口不十足运转低行政长官思索的事作业的位置下容许把任务交给回填,一旦找到回填作业,它将冲击力高行政长官思索的事的给予帮助。,体系抢先了作业资源。,公约高行政长官思索的事作业的给予帮助。

.4.4 涂集成

    云平台转瞬即逝的智能监控软件倒退运营WEB接合查阅,用户可以把经用的涂软件集成到图形边线中。用户在边线上点击有关的的涂顺序称呼。,将显示涂顺序的特别参量。,点击查阅电钮查阅涂软件。。用户也可以立即的在密集能解决中翻开。VNC边线停止巧妙地把持,而且涂顺序和作业查阅。。

.5  云平台集群智能监控软件集群监控

    云平台集群智能监控软件集群监控PR,经过Web翻页体系能解决员可以检查、理解集群体系的运用位置。、集群拓扑构架、集群记载体系、密集混合词底细、告警体系与混合词功能监听。

    云平台集群智能监控软件集群可以目镜、便利显示出席的密集通讯,每个工夫段可以经过图形信息显示。CPU运用率、内存准则、序列分区运用、体系流量、磁盘目录、负荷监控、网卡底细,如同意或发送使成群八位字节进度,便利体系能解决员理解每个工夫的运转资格,它还可以监督集群内存的总运用位置。、磁盘总有益、而且CPU总混合词和在线混合词等。,如下图所示:

    云平台集群智能监控软件集群拓扑VISU,集群体系序列机的拓扑构架,而且每个体系序列机的称呼。、IP、体系序列机其切中要害哪一个在线。,体系能解决员可以经过Web接合监控计算图表机房体系。。

    体系能解决员可以密集智能监控软件记载体系WebGUI对I/O角色的混合词确立或使防护共享主题,增加共享主题巧妙地把持,家庭用户可以查询共享主题和架置。。

    云平台集群智能监控软件监控混合词清晰地说明、感情的中枢入口出席的CUL中每个混合词资格的通讯,经过能解决助长集群体系的维修业务和能解决。图形边线切中要害检修器涂与现实C切中要害恒等的。,可显示某个混合词负荷位置而且混合词其切中要害哪一个不能接受,同时,当鼠标搬动到单独混合词时,会有单独指出MES。,显示混合词CPU总量、基频和总往事通讯,如下图所示:

    云平台转瞬即逝的智能监控软件监控资格O,体系能解决员可以设置CPU、唤回阈值的及剩余部分参量,它还可以检测集群体系切中要害非常位置。,体系混合词损失衔接通讯或踏过阈值的设置。,将停止告警要紧。,如下图所示:

.6  云平台集群智能监控软件集群音色

    云平台集群智能监控软件日记体系求婚、肥沃的的信息资源要紧功用,包含体系资源运用要紧,记账音色和报账设置。

.6.1 资源要紧音色

    云平台集群智能监控软件集群音色可在法令全书翻页中监控集群已成功作业位置、CPU运用率、手术运用CPU核小时和手术CPU运转工夫,如下图所示:

    用户可以在特别的的资源音色要紧中检查作业要紧日记;CPU、内存资源运用音色,当地人或共享往事运用要紧日记和剩余部分通讯。,音色可以争辩用户/队列运用工夫(按小时计算//)经过信息要紧达到要紧信息。,可以选择PDF/HTML/EXCEL输出日记的三种方式。

.6.2 票据免费音色

    票据免费音色可检查用户计算作业选择鼻和完毕工夫来要紧此工夫段内用户或许队列对CPU资源运用与总成本,还可以特别的计算每个作业的开端工夫和完毕工夫。CPU资源运用为信息检查达到特别的的奖学金获得者日记。,或经过PDF/HTML/EXCEL输出日记的三种方式。

.6.3 记账设置

    云平台集群智能监控软件集群音色可设置记账功用,能解决员可认为元设置每个内核的速率。/记账要紧工夫。

.7  云平台CL智能监控软件的用户化功用

    云平台集群智能监控软件求婚用户化F,可争辩客户请求用户化功绩,其决意是为客户求婚更密切的软件产品。。争辩现某个邀请,绍介了以下几点,用户化功用成功。

.7.1 计算资源登录把持

    在高功能检修器体系中,作业仅经过作业修补体系查阅,可经过修补体系停止监控。,这么就可以把持使结合成为整体的集群的资源和更多的定额。。有些不契合邀请。,以彼此方式查阅把任务交给的客户,修补体系不克不及监控混合词的巧妙地把持。,而且混合词的资源是无意义的的。,将持续运转混合词或停下混合词。,结实是计算资源抵触或彼此式涂顺序。。

    为了戒上述的位置的产生,云平台集群智能监控软件功绩Logi:家庭用户不克不及立即的登录来计算混合词。,仅经过作业修补体系查阅作业的用户,登录和互插巧妙地把持可以成功。。这么戒集群资源因用户而损失把持。,同时,便利用户运用。。

.7.2 无盘簇

    回答少数用户运用的无盘簇体系,云平台集群智能监控软件求婚了无盘簇的receive 接收:在无盘簇体系中,能解决混合词拨给的场地有关的检修,计算混合词经过该混合词启动计算混合词的给予帮助体系。,像这样,不必要增加用于计算NOD的给予帮助体系。。计算混合词间的高功能并列地记载体系,这么为每个计算混合词求婚高功能有文化。。

云平台集群智能监控软件优势

    云平台集群智能监控软件 顺序包结构在云平台集群智能监控体系上 Core Information 根底设施(云平台集群智能监控软件) 以核为根底)。云平台集群智能监控软件 地核是Bao de功绩的用于集成H的软件体系构架。,软件构件的集成与修复、HPCC的机智的运用与高效拨给的场地、维修业务和晋级求婚了使结合成为整体的信息库周围。。云平台集群智能监控软件集群能解决软件具有以下优点:

  • B/Sbuild的现在分词图形边线,倒退中英文边线,中英文边线一键切换
  • 经过体系 用户密集合能解决的GUI取得,武器装备监控的取得,拨给的场地资源能解决和把任务交给修补顺序参量,实时检查把任务交给的资格,CPU负荷的实时监控、内存有益与体系流量资格
  • 舞台场面设计增加,严格把持体系能解决员暗中的功用力量
  • 感情的中枢自然的布置使结合成为整体的集群体系。
  • 争辩用户请求敏捷的用户化领袖名(领袖名)
  • 经过云平台集群智能监控软件,SSH、VNC及剩余部分功用
  • 体系伴奏和回复混合词到默许设置
  • 智能把任务交给修补,取得资源预留,把任务交给回填,静态行政长官思索的事与簇分行使职责
  • 肥沃的的日记和奖学金获得者功用
  • 完整虚警日记
  • 具有防护机制的接着发生器,从容的集群的能解决与应用
  • 倒退多体系拨给的场地
  • 求婚更令人敬畏的的命令行接合(CLI)
  • 求婚单独优选法的并列地训练周围:MPICH, LAM
  • 使结合成为整体刻画文档
  • 按角色能解决密集混合词
  • 按需开启与停下
  • 倒退无盘集群
  • 计算资源登录把持
  • 可以行政长官思索集群资源。,当要紧承包解除资源时,正规的运转可持续正规的运转。
  • 作业悬可因查阅的作业悬而重行查阅。
  • 图形边线为用户求婚了倘若的查阅边线。
  • 倒退用户化功绩

总结起来,云平台集群智能监控软件有以下分别的次要的:

Add a Comment

电子邮件地址不会被公开。 必填项已用*标注