从CA数据中心管理看整个云数据中心管理

2014/12/8 posted in  云计算和大数据

CA 数据中心管理

CA数据中心管理软件在最近的Gartner提供的《数据中心基础设施管理工具魔力象限》中被列为领导者象限,足见其在数据中心管理的整体低位。
数据中心集中化已经成为了当前IT业的一个趋势,对于数据中心的管理同样也需要更加的自动化。除了需要应对传统的基础架构、运维管理、服务管理之外,新兴的云数据中心同样的需要多种的管理手段。

本文希望从在工作中使用CA管理套件的学习中来整理和总结一些数据中心管理手段。

CA 管理软件目录分类

CA将自己的管理软件分成了几个大类,下面从已经了解的部分分析它的几个大类的管理:

CA Service Assurance

进行CA的服务保障,通过对CA管理服务的监控,如操作系统、网络、数据库、应用,通过对这些监控的数据分析和相应的服务行为和业务影响分析。来进行一个端到端的风向评估,以提供相应的解决方案。

以核心业务系统为被管对象,从基础架构性能、网络性能、应用程序性能等多个方面进行全方位的分析和管理。实现主动的问题发现、定位和排除,最终确保服务级别和质量。

主要包括的产品有(仅包括一些使用过的产品,详细的产品目录可以查看CA官网):

CA Performance Management

CA性能监控中心,通过SNMP和NON-SNMP,整合服务器、网络、存储、流量、应用response等多种性能和相关数据的统一展示,提供了一个更快速,更聚焦的数据中心展示平台。它能够快速整合多种监控软件,并能够定义不同的安全级别来进行数据中心的相关监控。
CA Performance Management是一套监控和管理IT系统和网络基础设施的现代解决方案,其中包括:

  • Performance Center: 对多种数据源搜集的网络、设备、应用程序的性能数据进行统一的展示和管理。
  • Data Aggregator: 其中Data Aggregator由三大组件构成Data Aggregator、Data Collector和Data Repository。其中Data Aggregator主要起数据搜集和性能指标监控的作用,Data Collector主要从各类设备上按照DA要求定期抽取数据,Data Repository主要用于数据的存储。
  • Integration with IM solutions:集成其他的IM解决方案。如CA Network Flow Analysis, CA Application Delivery Analysis and CA Unified Communications Monitor以及 CA Spectrum 等。提供统一的展示功能。
CA DCIM

CA数据中心基础设施管理,提供对L1层的监控、告警以及数据中心的全方位可视化管理。可以进行相应的数据中心能耗管理,和可视化的数据中心实时2D、3D监控图。主要管理:电源系统、制冷系统、3D物理可视图。

CA Service Operations Insight

基于开放接口的集成平台
主要提供:

  1. 动态服务模型、服务性能和资源性能的拓扑发现
  2. 服务SLA、健康、性能的风险报告
  3. 针对服务性能进行根源分析,并输出事件和告警。
CA Application Delivery Analysis

提供端到端的应用程序监控,帮助快速的进行应用程序进程管理和快速定位解决问题。

  1. 监控所有应用的响应时间,可区分网络和服务器
  2. 监控服务器配置,ADA Console、Windows Server
CA eHealth

搜集和分析IT基础设施的实时性能数据,用可视化的方法对服务进行评估判断。提供算法分析和检测、用户自定义报表、实时数据显示和告警、多系统整合。

CA Mediation Manager

存储设备管理

  1. 存储设备拓扑发现,存储设备性能监控;
  2. 存储API适配,包括虚拟机的系统性能指标接入;
  3. 存储Agent适配、部署在被监控设备上。
    由于存储设备的多样性,提供可同时管理non-IP和non-SNMP设备
CA Network Flow Analysis

网络流量分析,优化应用的网络性能,形成100%可视化管理。帮助优化网络架构,获取更好的网络性能。它能够帮助诊断网络拥塞的主因、所需的网络连接容量、能承受多大的网络流量等。
它可以和CA Performance Center, CA Application Delivery Analysis, CA Unified Communications Monitor 和 CA Technologies third-party 或 custom IT management tools 整合,形成一个整体的网络性能方案,优化整体网络方案。

CA Spectrum

网络拓扑功能,提供网络设备、服务器设备等可用性管理。
能够使用拓扑帮助整体复杂的IT 基础设施,如物理服务器、虚拟的和云环境。同时整合错误管理、容错管理和根因分析以及相应的告警管理。
作为基本管理组件可以整合到其他解决方案中去:

  1. CA Application Performance Management
  2. CA Unified Infrastructure Management
  3. CA Performance Management
  4. CA Service Desk Manager
  5. CA Service Operations Insight
CA Virtual Assurance for Infrastructure Managers

提供集中管理物理环境和虚拟化环境的能力,提供一个整合的视角来同时管理Vmware、IBM、Oracle和Citrix。
该组件通过管理SystemEDGE代理组件来通过插件的方式管理不同的操作系统或者云管理平台。提供对插件的下发和管理的功能。

CA Service Management

CA 服务管理,帮助传统物理环境、虚拟化和云环境提升整体服务质量和资源利用率。能帮助实现具体的流程定义(如ITIL流程定义),管理传输、交付具体的服务或者资产声明周期。这些服务能整合以实现你的整体ITIL流程,通过ITIL流程的规范化来优化员工的积极性和效率。
服务管理的完整性可以提升服务质量、防止服务中断和大幅降低服务开销

CA Service Desk Manager

CA服务管理整合部分,能够为业务提供有效的IT服务管理,增进管理用户的能力和决策者的执行力。SDM提供变更管理、扩展自动化和Saas等工具来帮助决策者和管理员增加IT服务管理能力和降低业务消耗和风险。

CA ServiceDeskManager集成事件管理、问题管理、根因管理、变更管理、桌面管理、自动化支持、服务台、知识库管理、管理性能指标等。

Automation

IT多样性和复杂性,决定了IT管理需要有快速和多样化的服务来达到日益增长的服务要求。Automation建立自动化模式来帮助你加速和简化多样化云服务的管理变更。提供了主要的优势:

  1. 智能化:快速的响应改变的业务需求
  2. 工作流的方式加速云计算的实施
  3. 专业的速度、生产力和可视化的控制。
CA Process Automation

CA流程自动化:设计、部署和管理IT可选自动化流程

在跨组织和系统的情况下增加IT流程自动化,从而降低服务部署时间,降低跨部门情况下损耗的时间

  1. 降低手动操作花销
  2. 增加管理员效率
  3. 加速IT服务部署
  4. 增强服务质量
  5. 巩固流程策略
CA Server Automation

自动化服务器部署来增加IT服务部署效率。对操作系统、存储资源、跨物理服务的应用组件、虚拟云系统提供自动部署、补丁和配置管理。

  1. 加速应用部署时间
  2. 流程化服务器部署
  3. 增加服务器使用率
  4. 建立弹性和增加操作效率。
CA Configuration Automation

配置管理自动化: 自动化的进行数据中心资源管理配置
自动发现基础设施中得网络设备、服务器、操作系统、应用、数据库和中间件,进行相关的配置管理和管理IT服务设施。并时刻监测设施变更。

  1. 提高操作效率
  2. 巩固流程策略并减少风险
  3. 避免数据中心因为配置错误造成的运行中断
  4. 建立最好的生命周期管理
Advanced Authentication and Single Sign-On
CA Single Sign-On

单点登录组件,控制系统的单点登录情况。

业务目标

  1. 在传统物理架构领域、虚拟化领域、云架构领域,通过对故障发现、故障隔离、故障根源分析、配置变更管理、性能管理、流量分析、预测容量规划等手段支持IT服务交付
  2. 通过对网络、服务器、应用程序性能监控,并通过网络或物理关系拓扑,控制底层架构和流量构成,在网络流量分析、对网络和服务器问题提前进行有效的防护措施,更精准的预测未来的容量需求。
  3. 通过跨域相关性(物理与虚拟系统、数据与语音系统、数据库、客户端\服务器应用、私有\共有云)来简化IT管理过程,以便在集中式的企业仪表板中直观地显示故障与性能信息。
  4. 利用跨域信息和服务感知对整个外包服务的性能和可用性进行监控和管理,借助用户架构中的集中视图,无论服务降级或者中断发生在哪个位置,用户均能以更高的精准度进行定位,可主动管理与服务供应商签订的SLA,以保持服务级别竞争优势。

产品应有能力

  1. 故障定位能力:网络拓扑管理、网络关联分析、告警管理输出。网络级业务层面的快速故障定位能力。
  2. 主动预防能力:监控服务器、中间件、业务应用的运行状态,收集性能数据并进行分析和评估。通过性能数据分析和异常流量自动检测。异构场景下的监控QOS亚健康状态并输出告警,增强主动预防能力
  3. 提供优化建议:保存性能原始数据和分析数据,分析计算出性能指标基线,为全网规划、优化提供建议。

产品功能需求

集中监控

告警管理:
时间规则处理
阈值告警
用户自定义告警
告警集中呈现
告警邮件通知

性能监控:
性能阈值告警
性能指标趋势报表
性能指标健康报表
性能指标实时监控报表
公共服务拨测功能

Topo呈现

异构管理

异构服务器
异构存储
异构网络
异构Hypervisor
异构数据库

QOS管理

服务等级报告: 可用性分布、延时分布、线路利用率分布、网络容量、健康异常、平均健康指数、CPU利用率。
容量预测: 假设分析报告、健康报表的容量推断部分、健康报表的容量预算部分。

网络流量统计
  1. 统计网络报文流量,监控网络响应时间
  2. NetQOS Report Analyzer 分析网络应用延迟,帮助用户定位性能瓶颈
  3. 监测点的网络流量中各类TCP、UDP连接分析
  4. 实现保障功能,找出引起问题的异常网络流
应用程序体验和性能分析
  1. 管理最终用户的问题业务影响报告
  2. 监控Servlet、JSP、EJB、JMS、JPBC、JTA、WebService等应用组件响应时间
  3. 对事务自动跟踪分析,为分布式J2EE提供执行过程视图,自动找到执行路径中得性能瓶颈
  4. 支持灵活的监控扩充能力,可根据需要多任意客户应用中的类和方法进行监控
  5. 监控应用系统执行中得错误和异常,实时监控捕捉应用中阻碍应用程序成功执行的异常和错误
问题快速定位
  1. 告警相关性抑制,去掉重复告警
  2. 系统快照及回放
  3. 服务影响和根因分析