数据中心运维投标书
数据中心运维
投标书
**有限公司 二零一四年 八月
目 录
第一章 投标申请及声明 ........................................................ 3 第二章 法定代表人授权书 ...................................................... 5 第三章 报价表 ................................................................ 6 第四章 分项报价明细表 ........................................................ 7 第五章 投标资格证明文件 ...................................................... 8 第六章 运维需求分析 .......................................................... 8
一、业务需求 ............................................................ 10 二、运维需求 ............................................................ 10 第七章 运维内容 ............................................................ 12
一、维护服务内容 ........................................................ 12 二、资产信息统计服务 .................................................... 14 三、网络、安全系统运维服务 .............................................. 14 四、软件及数据运维 ...................................................... 20
1. 对操作系统的监控 ................................................ 20 2. 数据库相关维护 .................................................. 20 五、终端运维服务 ........................................................ 21 六、综合布线系统服务 .................................................... 21
1.维护管理执行的标准 ................................................ 22 2.彩色标识维护管理方式的实施方法 .................................... 22 七、大屏幕显示系统的维护 ................................................ 23
1.维护周期的确定 .................................................... 23 2.常见故障现象及处理方法 ............................................ 23 3.十大常见问题 ...................................................... 24 八、视频会议系统维护 .................................................... 25 九、视频会议系统维护 .................................................... 25 十、UPS设备维护 ........................................................ 27
1.主机的维护及注意事项 .............................................. 27 2.蓄电池的维护及注意事项 ............................................ 28
第八章 运维服务与管理 ...................................................... 29
一. 项目人员情况 .................................................... 11 二. 服务与管理 ...................................................... 30 三. 应急服务响应措施 ................................................ 33 四. 机房服务器维护说明 .............................................. 36
第九章 公司介绍 ............................................................ 43 第十章 数据中心相关运维表格 ................................................ 43
一. 巡检表单模板 .................................................... 43 二. 网络设备维护巡检模板 ............................................ 45 三. 机房安全巡检模板 ................................................ 48 四. 服务器系统安装确认单 ............................................ 49 五. 服务器安全检查基准 .............................................. 50 六. 数据中心拜访人员登记模板 ........................................ 54 七. 数据中心人员月考核模板 .......................................... 54
八. 服务器突发故障记录表 ............................................ 56 九. 服务器故障处理报告 .............................................. 56 十. 常驻人员签到表 .................................................. 58
第一章 投标申请及声明
致:****采购中心
根据贵方为 项目招标的投标邀请(项目编号: ),签字代表 (姓名、职务)经正式授权并代表投标人 (投标人名称、地址)提交下述文件正本一份,副本四份: 1.投标文件 2.投标一览表 3.投标分项报价表 4.服务产品说明一览表 5.偏离表
6.资格(资质)证明文件[包括招标公告中要求提供的资格(资质)证明材料]
7.招标文件要求提交的其他文件 8.投标诚信承诺书
在此,签字代表宣布同意如下:
1.我方完全了解在本项目招标公告中公布的采购预算,并承诺各包件的投标价不超预算。所附投标一览表中规定的各包件应提供和交付的服务的投标价为:
(以人民币元为单位,用文字和数字分别表示)。 2.我方将按招标文件的规定履行合同责任和义务。
3.我方已详细审查全部招标文件,包括澄清文件(如有的话)以及全部参考资料和有关附件,我方完全理解并同意放弃对这方面有不明及误解的权利。
4.我方接受本项目招标文件“投标资料表”中所规定的投标有效期。。 5.我方同意提供按照贵方可能要求的与其投标有关的一切数据或资料,完全理解贵方不一定要接受最低价的投标或收到的任何投标,完全理解并接受招标人和招标机构对评标资料保密且不解释落标原因。
6.我方已按照本项目招标文件中所附的《资格(资质)性检查表》以及《符合性检查表》进行了自查,对招标机构根据《资格(资质)性检查表》判定无效投标以及评标委员会根据《符合性检查表》判定非实质性响应投标无任何异议。
7.我方同意按照《政府采购法》及相关法律法规的规定提出询问或质疑。我方已经充分行使了对招标要求提出质疑和澄清的权利,因此我方承诺不再对招标要求提出质疑。
8.与本投标有关的一切正式往来信函请寄:
地 址: 邮 编:
电 话: 传 真: 手 机: 电子邮件:
投标人法人授权代表签字 投标人名称 公 章 日 期 开户银行 账 号
第二章 法定代表人授权书
本授权书声明:注册于(地址)的(公司名称)的在下面签字的(法定代表人姓名、职务)代表本公司授权(单位名称)的在下面签字的(被授权人的姓名、职务)为本公司的合法代理人,参加(项目名称)的投标,以本公司名义处理一切与之有关的事务。 本授权书于 年 月 日签字生效,至 年 月 日失效。特此声明。
法定代表人签字或盖章 被授权人签字或盖章 投标人名称 (盖章)
第三章 报价表
投标报价一览表
包件: / 单位:万元(人民币) 序号 1 2 3 4 … 服务的分项名称 硬件设备维护 软件及数据维护 总计 服务具体内容 数量 运维单价 运维总价 自合同签订之日起一年 服务起迄日期 备 注 投标总价不得超过公布的预算金额(即人民币88万元)! 投标人代表签字 投标人公章
注:1、如果此表中的内容与投标文件中各明细表内容不一致的,以此表为准。
2、如果用文字表示的金额与用数字表示的金额不一致,以文字表示的金额为准。 3、如果单价相加与总价不一致,以单价为准修正总价。
第四章 分项报价明细表
包件: / 单位:万元(人民币) 其中 序号 服务的分项名称 合计 基本费用 管理费及酬金 材料 其他 税金 备注
总计 投标人法定代表人授权代表签字 投标人(盖章)
注: 1、 基本费用指支付人员经费支出,主要包括薪金、交纳社会统筹和外地民工的综合保险等。
2、
此表的内容应与“投标报价一览表”保持一致。
第五章 投标资格证明文件
第六章 项目背景
近年来,*区电子政务取得了长足的进展,各单位对数据和系统的共享需
求越来越多,但目前我区各单位的信息系统是相对独立,数据格式和标准也不统一,这与电子政务系统建设的总体原则是有所相悖。电子政务系统应该是政府利用信息技术,向社会提供各种服务,应该是一个整体的平台概念,但由于各种原因很难将这些数据进行统一管理。
根据**市电子政务发展的总体框架,我区已建成一个以数据采集、交换、共享为主要内容的公共数据中心。该数据中心定位为*区电子政府和国民经济与社会发展的“智能数据图书馆”和“战略资讯中心”。数据中心服务于我区各级政府单位,主要支撑电子政务的应用数据交换、数据备份、安全监控、网络交换、服务器托管、IT资产管理、信息挖掘应用和领导决策辅助等八大功能,将有效提升政务信息资源和其他公共信息资源的共享、提升电子政务协同办公平台[中台]的应用、提升为民办事的广度和深度。
自2009年2月完成验收以来,数据中心各业务系统已运行3年,现需要公开招标采购具备相应运维资质和能力的技术服务商来承担“2015-2016年度”数据中心整体的运维工作,以确保数据中心所有的设备及系统在该运维周期内能稳定运行,并提供良好的应用和数据服务,为智慧**建设提供有效的数据支撑。
第七章 项目目标
(1)通过日常运维工作,高效、有序地管理好*区公共数据中心内所有的
软硬件设备。
(2)确保各系统的正常运行,使数据中心的九大功能能正常提供服务。 (3)通过运维加强数据中心与*区各部门业务系统之间的联系,不断充实数
据资源,提供更为丰富的数据服务。
(4)优化数据中心各项服务的功能和流程,结合运维期间实际的使用效果或用户意见,修改并完善相关的系统功能。
第八章 项目现状
一.完成了一套基础设施
数据中心建有大小二个机房,大机房98平米,主要存放网络设备、安全设备、存储及业务系统服务器;小机房56平米,主要用于委办局业务服务器的托管。另外配备一个36平米的运维室,能对机房各类设备进行环境及运行状态的监控。
完成了一个安全保障系数较高的专用机房及传输性能良好网络系统。在机房建设中,完成了摄像监控、自动报警、高可用集群管理、及KVM等技术。对进出机房的人员进行严格控制,对非物理性的系统维护只要在监控室就能进行;对系统运行进行及时监控,发现问题及时报警;对机房内的所有服务器进行分类,并进行高可用集群管理,可以为数据中心正常运行提供可靠保障。
完成了数据中心和各委办局之间互联互通的专用网络,并采用SSL VPN遂道技术,确保传输数据的安全保密。同时用万兆核心交机与**电子政务外网进行连接,满足大流量数据业务的应用。
完成了系统安全设备配置和管理制度的建设,在机房内建设了冗余网络:双交换机、双防火墙、双路由等冗余设备,满足应急响应。我们还配置了防火墙、入侵检测、高强审计、漏洞扫描等安全产品,将为数据中心的安全运行提供高可靠的保障。
二.完成了统一管理平台的建设
统一管理平台及用户登录界面、数据管理、数据备份、安全监控等子系统于一体。对内是运维人员的操作平台,对外是各部门业务人员的操作界面。
三.完成了三个应用系统的开发
数据管理子系统可以提供高效可靠的数据服务。它可以对分布在不同部门不同系统中的异质异构的数据进行抽取、转换,形成统一的数据集。它可以向用户
提供数据服务,直接从数据中心获取所需要的数据信息,从而达到数据信息共享的目的,有效地解决前电子政务存在的信息孤岛。为数据共享打下基础,使信息数据发挥更大的应用价值。
数据备份子系统为各委办局提供数据备份空间,实现数据备份管理、保障数据安全。备份系统可以全自动地在规定时间对各委办局在当天需要备份的系统进行有针对性的备份,不需要人工参与。数据中心还可以为各委办局提供服务器托管、帮助他们解决没有合格机房的现实困难。同样为托管系统做好备份。备份系统具有三大类的备份功能:镜像备份、增量备份、全量备份等备份。系统可以对损坏的系统在最短时间进行恢复备份数据通过SSL VPN的加密传输,保证了传输过程中不被截取。
安全监控平台系统是对网络进行安全监控,提供设备管理、策略管理、病毒与漏洞管理、安全事件管理、告警管理、安全审计、安全态势分析等多种技术手段,实现对**区政务信息系统的统一安全管理。建成的安全监控系统能对各委办局的信息安全事件进行统一的自动监控和管理,并为各委办局提供各类信息安全服务,此项目为另立项目。
第九章 运维需求分析
一、业务需求
为加强数据中心内部服务器管理,确保各业务系统的正常运行,并及时掌握服务器资源闲置或紧张状况,使内部服务器在良好的运行环境下,其资源得到安全、科学、有效的利用和调配,特制定本规范。
二、运维需求
服务器管理系统通常是针对具体的应用服务器开发的,用于对具体应用服务器功能进行全面的管理。
服务器基本信息管理:包括安装程序、CPU、内存、进程、磁盘分区信息管理。
各种服务的管理:包括HTTP、FTP、SMTP、POP3、DNS服务管理。 数据库的管理:包括Oracle性能、表空间等管理、Sybase、MS SqlServer、
Mysql管理。
性能分析:包括实时、当日、统计性能分析。
告警:提供与网强网管告警的联动。包括对话框告警、声音告警、应用程序告警、手机短信告警(需要添加手机模块)、邮件告警。
1.扩展服务器管理系统
当业务规模还小,网络上只有一两台服务器时,管理工作相对来说比较简单。但对于中型以上网络系统,可能会有许多不同类型的服务器,如有多个域控制器、多个DNS、DHCP、WINS服务器,还可能有各种应用服务器,如Web服务器、FTP服务器、邮件服务器和数据服务器等。这时,仅凭手工操作,或者管理经验来管理这么多服务器就显得力不从心,甚至无法有效管理了。这时就得依靠一些专业的服务器管理系统为我们自动,或者手工管理了,提高管理效率和水平。如使用微软的系统管理服务器(SMS),惠普公司的Openview,IBM公司的Tivoli,CA公司的Unicenter 以及Dell公司的OpenManage服务器管理系统都可以降低管理不同服务器的难度。这些软件产品都可以对整个网络的服务器进行集中监控和管理,但是这些管理系统通常是随服务器购买而一起提供,不单独购买,所以在购买时一定要仔细询问是否支持你公司当前的服务器软、硬件环境。
2.服务器的远程管理
随着网内服务器数量的增加,服务器的分布范围也日益分散,不再局限在一个房间里。管理员再也不能在一个房间里完成对所有服务器的管理和维护工作。这就需要进行远程管理。
Windows 2000 Server 和Windows Server 2003内置的终端服务可对服务器进行完全的远程控制,通过这一服务管理员可以通过因特网或者局域网接入服务器桌面进行管理。在Windows 2000 Server中这一服务被称为Windows 终端服务的远程管理模式,在Windows Server 2003中则为远程桌面。
第十章. 项目人员安排
本次运维项目由5人组成:
商务经理:1人,主要负责项目相关的咨询工作,并协助客户完成相关设备的采购。。
项目经理:1人,主要负责项目计划的制订,实施方案,人员管理,质量及风险控制等。 高级硬件工程师(常驻):1人,主要负责提供硬件故障的解决,保证数据中心的正常运转,工作内容包含如下: 机房的日常维护,硬件设备的常规检查,系统软件的常规检查,填写维护报告,填写相关日志报告,存案留底。
高级软件工程师(常驻):2人,主要负责软件故障的解决,保证数据中心各业务系统的正常运行。 序号 1 2 3 4 5 职位 商务经理 项目经理 高级硬件工程师 软件工程师 软件工程师 数量(人) 1 1 1 1 1 姓名 *** *** *** *** *** 所属单位
第十一章 运维内容
本项目运维主要工作内容分为两大部分,分别为硬件设备维护和软件及数据维护,并为整体系统运行和维护提供5×8工作日的应急响应服务,下面将对各服务主要内容及要求做详细说明:
一、维护服务内容
1客户端常用应用软件维护及系统维护
客户端常用应用软件的安装、调试、管理、更新、升级、故障检测及排除。 客户端操作系统的调试、管理、更新,升级,故障检测及排除。 客户端操作系统包括WinServer系列、Liunx系列等。
常用应用软件包括办公软件、翻译类软件、阅读类软件、下载类软件等,包括某些
专业应用软件,如专业财务软件、排版软件、工程计算软件等,但不包括客户自行开发使用的系统客户端应用程序。 建立常用应用软件及驱动程序库。 2、客户计算机硬件维护及升级
客户端计算机硬件设备的维护、保养、更新、升级、故障检测及排除。 对于需要更换的设备,提供设备选型建议及市场参考价格,并可代为购买 建立电脑硬件配置档案,实行标准化管理。
3、服务器的病毒防护
安装、管理、维护客户服务器的病毒防护系统。
培训用户计算机病毒的防护知识以及防病毒软件的使用,建立用户的防病毒意识。
升级、更新、优化用户已有的病毒防治系统。 定期提供病毒检测、告警及最新预防措施。
提供紧急病毒故障处理服务,对突发的新计算机病毒进行及时响应。 4、网络防病毒系统的维护
对用户的网络防病毒系统进行维护,升级版本,更新病毒库从而确保网络、系统及
数据资料的安全。 5、综合布线系统维护
利用专业测试仪器提供对铜缆、光纤的布线故障检测处理。
对现有综合布线系统中存在的缺陷、问题提供合理化改造或升级方案,并可提供专
业水平的工程施工 6、网络打印的故障处理
解决驱动程序/软件设置/网络设置问题造成的网络打印故障。 7、非网络打印机的故障处理(非硬件损坏) 解决驱动程序/软件设置问题造成的打印故障。 8、其它外置设备的故障处理
解决扫描仪、手写板、摄像头、外置硬盘、刻录机等外置设备由于驱动程序/软件
设置问题造成的故障。 9、局域网系统的故障诊断
检查由于网络设备(如网卡、网线、交换机等)或网络设置造成的局域网络通信故
障。
10、配线架及机柜的维护
整理并规范配线架及机柜内的走线,对于存在的缺陷和问题提供合理化改造方案。 11、 服务器系统维护
从服务器硬件选型、软件安装、管理到软硬件更新、升级,提供全程维护服务。 对操作系统提供性能监测、系统优化、故障检测、故障排除、用户管理、资源分配、
安全性控制等。
服务器软件安装,安装配置、维护、故障排除等。 12 、服务器安全漏洞修补
及时对各台服务器提供最新的安全漏洞修补程序,以避免服务器及内部网络遭受到
黑客的攻击,对用户造成损失。 13、网络交换机维护
提供网络交换机的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧
急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转。 14、路由器维护
提供用户端路由器的调试、故障诊断、日常维护保养、更换升级建议。对于突发的
紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转。 15、办公自动软件的安装及维护
对办公自动软件系统的数据库备份、客户端安装、软件故障排除等进行办公自动软
件整体维护。
16、计算机机房及综合布线系统改造
对用户现有计算机房及综合布线系统可能存在的线路混乱、不规范等问题提供合理
化解决方案。 17、网络防病毒系统的建设
按用户需求,规划、建设网络防病毒系统,实现全方位病毒防护,确保网络、系统
及数据资料的安全。
18、单机备份网络备份系统的选型及建设
为需要单机备份或网络备份的用户提供专业的全套服务,包括系统及设备选型、策
略制定、灾难恢复等。 19、路由器及交换机调试
提供路由器及交换机进行实际操作调试。 调试以基本的安装调试应用为主。
二、资产信息统计服务
此项服务为基本服务,包含在运行维护服务中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。服务内容包括:
硬件设备型号、数量、版本等信息统计记录; 软件产品型号、版本和补丁等信息统计记录; 网络结构、网络路由、网络IP地址统计记录; 综合布线系统结构图的绘制; 其它附属设备的统计记录;
三、网络、安全系统运维服务
从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。网络、安全系统基本服务内容:
序号 1 2 3 4 5 服务模块 现场备件安装 现场软件升级 现场故障诊断 电话远程技术支持 问题管理系统 内容描述 配合用户进行,按备件到达现场时间工程师到达现场 首先分析软件升级的必要性和风险,配合用户进行软件升级 按服务级别:7×24小时 5×8小时 7×24小时 对遇到的问题进行汇总和发布 提供方
网络核心交换机巡视典型作业计划书系统管理单位: 设备名: 设备型号: 维保单位: 管理IP: 巡视方法描述 巡检周期 检查内容 硬件运行状态 系统运行状态检查 日志检查 其他检查内容 OSPF 状态 日志 状态 电源运行状态 风扇运行状态 模块运行状态 VLAN 状态 配置 状态 参考标准 检查结果 检查结论 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 (1)
用户现场技术人员值守
根据用户的需求提供长期的用户现场技术人员值守服务,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。现场值守的技术人员每天记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常进行,交换机的性能检测,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。
现场值守人员还进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。
同时能够对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包括:
配置数据 性能数据 故障数据
(2) 现场巡检服务
现场巡检服务是对客户的设备及网络进行全面检查的服务项目,通过该服务可使客户获得设备运行的第一手资料,最大可能地发现存在的隐患,保障设备稳定运行。同时,将有针对性地提出预警及解决建议,使客户能够提早预防,最大限度降低运营风险。
巡检包括的内容如下: 编号 1 单板状态检查 设备地线检查 2 设备运行情况检查 路由运行情况检查 3 网络运行问题调查 巡检内容 硬件运行状态检查项目 电源模块状态检查 风扇状态检查 机房温度、湿度检查 整机指示灯状态检查 机框防尘网检查 软件运行情况检查项目 设备对接运行状况检查 网络整体运行情况调查 网络历史故障调查 网络报文分析 网络变更情况调查 (3) 网络运行分析与管理服务
网络运行分析与管理服务是指工程师通过对网络运行状况、网络问题进行周期性检查、分析后,为客户提出指导性建议的一种综合性高级服务,其内容包括:
服务内容 向客户提供网络专家电话号码。 网络专家组每周与客户进行不少于30分钟的电话技术交流 每月向客户提交CASE汇总分析报告,并可扩展到每年17次(月度、季度、年度) 服务优点 保证重大问题第一连线至网络专家。 以最小成本保证及时解答客户关心的技术问题,并就某一领域技术问题展开深层次沟通。 使客户了解网络历史故障情况以及故障预防建议,最大程度减少网络故障隐患,更高效的进行网络管理。 (4) 重要时刻专人值守服务
保证重要时刻设备稳定运行对客户成功尤为关键,因此,可对客户提供重要时刻的专人现场值守支持,包括政府的重大会议期间、突发公共事件及其它任何客户认为可能对其工作产生重大影响的时刻。
如需专人值守,客户需至少提前2周与授权服务商客户服务经理联系。授权服务商均需按事先合同约定提供专人值守服务。客户如需超出合同约定范围的更多值守支持,需额外支付相应人力和差旅费用。
四、服务器、存储系统运维服务
服务器、存储系统的运维服务包括:服务器、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。
硬件维护包括增加设备、卸载设备、更换设备、除尘等,下面做一简要的叙述。
1.设备的增加
内存和硬盘的增加是服务器最常见的,安装的应用软件、资源库越来越多,服务器需要更多的内存和硬盘容量。增加内存前需要认定与服务器原有的内存的兼容性,最好是同一品牌的规格的内存。如果是服务器专用的ECC内存,则必须选用相同的内存,普通的SDRAM内存与ECC内存在同一台服务器上使用很可能会引起系统严重出错。在增加硬盘以前,需要认定服务器是否有空余的硬盘支架、硬盘接口和电源接口,还有主板是否支持这种容量的硬盘。尤其需要注意,防止买来了设备却无法使用。
2.设备的卸载和更换
卸载和更换设备时的问题不大,需要注意的是有许多品牌服务器机箱的设计比较特殊,需要特殊的工具或机关才能打开,在卸机箱盖的时候,需要仔细看说明书,不要强行拆卸。另外,必须在完全断电、服务器接地良好的情况下进行,即使是支持热插拔的设备也是如此,以防止静电对设备造成损坏。
3.除尘
尘土是服务器最大的杀手,因此需要定期给服务器除尘。尤其是在炎热的夏季,对于服务器来说,灰尘甚至是致命的。除尘方法与普通PC除尘方法相同,尤其要注意的是电源的除尘。
服务器存储系统基本服务内容:
序号 1 服务模块 现场备件安装 内容描述 配合用户进行。按备件到达现场时间工程师到达现场 消除软件漏洞给系统带来的安全隐患,并对安装补丁所引起的系统连锁反应进行合理的平衡。 提供方 设备厂商及 设备厂商及 2 补丁服务 3 4 5 6 7 升级服务 现场故障诊断 电话远程技术支持 问题管理系统 系统优化 对系统进行软件或硬件的升级,以改进、设备厂商及 完善现有系统或消除现有系统的漏洞。 按服务级别:7×24小时 5×8小时 7×24小时 对遇到的问题进行汇总和发布 对客户系统的括主机、存储设备、操作系 统、提供优化服务。
现场值守人员可进行监控管理的内容包括: CPU 性能管理; 内存使用情况管理; 硬盘利用情况管理; 系统进程管理; 主机性能管理;
实时监控主机电源、风扇的使用情况及主机机箱内部温度; 监控主机硬盘运行状态;
监控主机网卡、阵列卡等硬件状态; 监控主机HA运行状况; 主机系统文件系统管理;
监控存储交换机设备状态、端口状态、传输速度;
监控备份服务进程、备份情况(起止时间、是否成功、出错告警);
监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题; 对存储的性能(如高速缓存、光纤通道等)进行监控.
小型机及服务器系统巡检典型作业计划书(HP服务器部分) 系统管理单位:洛阳市人防办 设备名: 设备型号 设备序列号 管理IP: 检查内容 电源指示灯 面板指示灯 硬件运行状态 内置磁带机 CPU 状态 内存状态 磁盘状态 网卡状态 HBA卡运行状态 系统日志 Mail 文件系统,包括磁盘卷剩余空间 硬件检测 系统交换分区 参考标准 检查结果 状态是否正常 □正常 □异常 巡检方法描述 巡检周期 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 检查 固件版本 补丁包版本 系统镜像 存储磁盘 存储驱动 进程状态 系统性能CPU利用率 内存利用率 检查 磁盘I/O性能 数据库运行状态 集群集群进程状态 数据库进程状态 数据库安装目录 检查 集群日志 存储设备故障灯状态 存储SAN交换机端口状态 检查 存储交换机环境状态 系统故障报告
四、软件及数据运维
数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。
数据库运行维护服务还包括快速发现、诊断和解决性能问题,在出现问题时,及时找出性能瓶颈,解决数据库性能问题,维护高效的应用系统。
数据库运行维护服务,主要工作是使用技术手段来达到管理的目标,以系统最终的运行维护为目标,提高用户的工作效率。
具体数据库运行维护监控的基本服务内容包括:
1. 对操作系统的监控
文件系统的空间使用情况,必要时对数据库的警告日志及TRC文件进行清理 如果数据库提供网络服务,检查网络连接是否正常 检查操作系统的资源使用情况是否正常
检查数据库服务器有没有硬件故障,如磁盘、内存报错
2. 数据库相关维护
序号 服务模块 内容描述 每周7天,每天24小时支持中心电话,电子邮件答询,以满足业务发展的需要。 数据库产品技术专家直接同客户对话,帮助解决客户提出的疑难问题。 根据问题的严重程度,将优先解决客户认为是关键而紧急的任务。 对客户提出的一般性问题进行技术咨询、指导。 定期的客户管理报告, 避免问题再度发生。 数据库宕机 数据坏块 影响业务不能进行的产品问题 软件产品的更新及维护。 对系统的配置及运作框架提出建议,以帮助您得到一个更坚强可靠的运作环境 提供方 1 数据库7*24电话支持服务 2 数据库产品现场服务响应 数据库产系统健康检查 3 序号 服务模块 内容描述 降低系统潜在的风险,包括数据丢失、安全漏洞、系统崩溃、性能降低及资源紧张 检查并分析系统日志及跟踪文件,发现并排除数据库系统错误隐患 检查数据库系统是否需要应用最新的补丁集 检查数据库空间的使用情况 协助进行数据库空间的规划管理 检查数据库备份的完整性 监控数据库性能 确认系统的资源需求 明确您系统的能力及不足 优化数据库的表现 通过改善系统环境的稳定性来降低潜在的系统宕机时间 提供方 4 分析用户的应用类型和用户行为 评价并修改数据库的参数设置 评价并调整数据库的数据分布 数据库产品性能调优 评价应用对硬件和系统的使用情况,并提出建议 利用先进的性能调整工具实施数据库的性能调整 培训用户有关性能调整的概念 提供用户完整的性能调整报告和解决方法
五、终端运维服务
作为整体信息系统维护方案,终端设备维护必不可少。各种局部服务器、工作站、台式机、笔记本、显示设备等,除了必要保修外,需要进行日常的系统维护、系统调试和培训。
六、综合布线系统服务
布线管理是针对设备间、交换间的工作区的配线设备、线缆、信息插座等设施,按照一定的模式进行标识和记录,内容包括:管理方式、标识、色标、交叉连接、跳线等这些内容的实施给系统维护、管理创造方便,提高了管理水平和工作效率,从而实现了综合布线系统的灵活性、开放性和扩展性。
综合布线线缆是综合布线系统的基础设施,是整个网络的中枢神经系统,它能为智能建筑提供语音、数据、图像、多媒体等系统的应用,并在不断的扩展中。这得益于综合布线系统网络灵活性及高可靠性,但也带来新的问题,主要表现在随着系统的使用、网络的发展,
用户不可避免的要对连接的缆线移动、添加、改动,使得跳线不断变更,在设备间主配线架及楼层配线架将会出现跳线管理的问题,众多的缆线很难避免出现混乱,这一直是用户极为关注的问题。
1.维护管理执行的标准
目前电信基础设施管理的标准是: TIA/EIA—606标准,该标准是商业建筑物电信基础设施管理标准,是目前国际上有关商业建筑物电信基础结构的唯一管理标准。管理基础设施包括有以下范围:
※位于工作区、配线间、设备间和引入设施的终端部件; ※电信布线缆线和连接件;
※电信布线缆线路径、连接件位置、终端部件所在的位置: ※电信的接地与连接。
2.彩色标识维护管理方式的实施方法
彩色标识管理是在每个交接区实现线缆管理的方式,是在各色标区域之间按照应用的要求采用跳线连接。色标作为用来区分配线设备的性质,标识按性质排列的接线模块,表明端接区域、物理位置、编号、容量、规格等,以便管理人员一目了然地加以识别。即在配线架上将来自不同方向或不同应用功能设备的线路集中布放,并按规定不同颜色的标记区域,当一个工程内有多个设备问、交换间、楼层配线问,应采用统一的色标区别各类用途的配线区,综合布线管理系统通常使用三种标记:缆线标记、区域标记和插接件标记。
1、配线架面板为端口单独管理方式,因而可以轻松完成每一个端口的检查、替换或纠正。端口的易接近性是配线系统的重大创新,因而所有管理和维护操作都可在前端完成。
2、在IU高度的19”空间中,可以同时支持超五类、六类、七类信息模块、光纤管理单元和语音配线单元的管理,且每个端口的功能均可由客户自由制定。
3、电缆的管理:配线架后端带加长电缆托架并预留线槽,还可采用电缆管理条紧固及标识电缆。
4、光纤管理单元:光纤管理单元为防尘封闭式设计,单元内预留光纤盘绕位置,3口及6口光纤管理单元可分别实现6芯、12芯光纤的管理,还可以管理各类通用的光纤连接器(如6MT—RJ、LC、SC、ST等),在IU机柜空间上管理多达48芯光纤。
5、配线架信息端口采用免工具安装管理信息模块,所有维护操作均在配线架前端完成,每个端口单独管理,维护时仅取下对应端口的支件,不需任何工具。
七、大屏幕显示系统的维护
1.维护周期的确定
维护周期应根据设备的工作环境来确定,如工作在环境条件较好灰尘较少(如调度指挥中心,监控中心等),建议设备的维护时间为6个月维护一次, 如果环境较差应该缩短维护周期,建议3个月一次。(如车站,机场,购物娱乐场所等)。
2.常见故障现象及处理方法
a) 色轮故障
现象——屏幕图像色彩不正常﹐偏蓝﹑偏绿﹑偏红或者颜色不稳定﹐忽蓝忽绿。打开内置状态15(按ADJUST-SHIFT-1-1-5-SHIFT)﹐可以发现颜色不正常(正常应为100%白色)。
处理方法——将色轮拆下﹐用棉签沾无水酒精擦拭色轮片和光耦探头或更换色轮。 b) DMD板故障
现象——屏幕图像呈黑白色﹐机器死机﹐不接受遥控器指令或屏幕底色有3条隐约可见的白线。
处理方法——更换DMD板。 c) 控制模块故障
现象——屏幕中有一片图像颜色不稳定﹐此现象关机后再开机可能消失﹐但运行一段时间后会再次出现或屏幕图像有纹路。 处理方法——更换控制模块。 d) 灯泡故障
现象——黑屏或屏幕象不稳定的日光灯一样忽明忽暗
处理方法——检查Power灯是否正常﹐Fan灯是否正常﹐Lamp灯是否闪烁﹐观察灯泡是否已碎﹐如是则需更换灯泡。 e) 点灯器故障
现象——屏幕象不稳定的日光灯一样忽明忽暗﹔点灯器有无间隔发出丝丝的声音。
处理方法——先检查灯泡是否正常﹐如正常则需更换点灯器。 f) Digital线故障
现象——在串接状态下屏幕图像颜色有时偏蓝﹐有时偏绿﹐有时又正常﹔打开内置状态10﹐颜色正常。 处理方法——更换Digital线 g) 遥控器故障
现象——遥控器控制无反应或不按控制动作。
处理方法——首先使用对其他屏进行控制﹐ 确定遥控器无问题后﹐ 检查红外接收板与电子模块联机﹐ 如无改善﹐ 则需更换红外接收板和电子模块。 h) 颜色复位
现象——开机后屏幕突然出现色差(多发生在突然断电后)。
处理方法——检查gain及offset值﹐是否已恢复为初始值(gain为32,offset为127)﹐重新设定gain及offset值。 i) 灰尘污染
现象——画面边缘出现蓝紫色斑﹐ 边缘不清。
处理方法——调整光机内的小反射镜并清除小反射镜上的灰尘。
3.十大常见问题
序号 故障种类 故障现象 解决方案 1 色轮故障 屏幕图像色彩不正常﹐偏蓝﹑偏绿﹑偏红或将色轮拆下﹐用棉签沾无水酒精擦拭者颜色不稳定﹐忽蓝忽绿。打开内置状态10色轮片和光耦探头或更换色轮。 ﹐可以发现颜色不正常。 屏幕图像呈黑白色﹐机器死机﹐不接受遥控更换DMD板 器指令或屏幕底色有3条隐约可见的白线。 2 DMD板故障 屏幕中有一片图像颜色不稳定﹐此现象关机3 控制模块故障 后再开机可能消失﹐但运行一段时间后会再更换控制模块 次出现或屏幕图像有纹路。 4 灯泡故障 检查Power灯是否正常﹐Fan灯是否正黑屏或屏幕象不稳定的日光灯一样忽明忽暗常﹐Lamp灯是否闪烁﹐灯丝是否已碎﹔点灯器有时会间隔性发出丝丝的声音。 ﹐如是则需更换灯泡。 屏幕有间歇性自动开关机现象﹐有时开机时先检查灯泡是否正常﹐如正常则需更会出现倒影。 换点灯器。 5 点灯器故障 6 Digital线故屏幕图像颜色有时偏蓝﹐有时偏绿﹐有时又更换Digital线 障 正常﹔打开内置状态10﹐颜色正常。 首先使用对其他屏进行控制﹐ 确定遥控器无问题后﹐ 检查红外接收板与电子模块联机﹐ 如无改善﹐ 则需更换红外接收板和电子模块。或与DMD芯片过热有关﹐需关机等待少时。 检查Drive﹑Cutoff﹑Gain及Offset值﹐是否已恢复为初始值﹐需重新设定Drive﹑Cutoff﹑Gain及Offset值。 一般为光机内小反射镜积灰所致﹐ 可用皮吹吹去灰尘。 7 遥控器故障 遥控器控制无反应 8 内部设置故障 开机后屏幕突然出现色差 9 设备污染 画面左边出现蓝紫色斑﹐边缘不清 10 电源模块故障 暂无
八、视频会议系统维护
常规检查:从用户终端手动呼叫打环测试设备,如果能握手成功并看到打环视频,说明终端、网络没有大问题。
用户打环成功但是无法从MCU发起呼叫:既然打环成功,说明路由、终端没有大问题,往往问题在区县信息中心或者用户终端前增加了防火墙,对外部发起的访问进行了限制或者nat转换不正确,请用户协助变更。如果会议比较着急,可以在MCU上把该终端模式改为“dial in”,让用户手工参加会议暂时解决问题。
双方向均无法呼叫:请网管检查网络问题,往往和上述问题有关。
MCU发动呼叫的时候,链接后马上断开:正常情况下链接有一段时间,或者链接成功或者断开,如果马上就断开,说明对方占用了终端IP地址或者链接到别的会议上。
九、视频会议系统维护
机房环境检查就是对机房的温度、湿度、照明、防鼠、防水、防尘、消防、卫生、门窗的关闭进行检查,主要通过检查以下设备或项目去完成。
1. 机房空调
※检查空调是否正常运行、制冷温度是否在规定范围内 ※检查空调设备断电后再通电的自动投运状况 ※检查空调是否有漏水现象
※检查空调电源插头是否稳固、是否出现老化现象 ※检查空调设备卫生情况 ※填写巡检记录
2 .照明设备
※检查照明设备是否都能正常运行、照明光度是否足够 ※检查机房事故照明断电后的工作情况 ※检查照明设备是否出现老化迹象
※检查照明设备的控制开关是否能正常使用、灵敏度 ※填写巡检记录
3. 消防设备
※检查消防设备合格证、是否通过安全定检 ※消防设备是否配备足够 ※消防设备是否完好(外观) ※检查机房消防系统是否能正常运行 ※清洁消防设备 ※填写巡检记录
4. 抽湿机
※检查机房抽湿机是否正常运行
※检查机房抽湿机设定的湿度是否在规定范围内 ※填写巡检记录
5. 机房防鼠
※检查机房所有与外界有联系的孔洞是否已严密封堵 ※检查机房门窗是否已关闭
※检查机房门的防鼠板是否已装上并安装稳密 ※填写巡检记录
6 .机房防水、防尘
※检查机房空调是否有漏水现象 ※检查机房墙壁是否有渗水现象 ※检查机房门窗是否已关闭 ※填写巡检记录
7 .机房卫生
※检查机房是否有垃圾、杂物
※清洁门窗、地柜;整洁办公用品,清洁地面 ※负责施工后机房地面清洁工作 ※填写巡检记录
8. 防雷设备
※检查防雷设备运行是否正常,能否实现防雷功能 ※检查、测试设备运行的相关参数是否正常并记录 ※检查设备的外观完好性 ※检查设备是否出现老化迹象
※检查防雷设备接线是否牢固,线缆是否出现老化迹象 ※清洁防雷设备 ※填写巡检记录
十、UPS设备维护
1.主机的维护及注意事项
UPS主机一般是智能型的,它对环境温度要求不高,但要求室内清洁卫生否则灰尘遇潮湿会引起主机工作紊乱;主机中的参数在使用中不能随意改变;在断电时,应避免带负载启
动UPS电源,应先关掉负载,等UPS启动后再开启负载,否则会有多负载的冲击电流和供电电流造成UPS电源瞬间过载,严重时会损坏变换器;不能让UPS电源经常处于满载或过载。
2.蓄电池的维护及注意事项
尽管使用的是免维护蓄电池,但从广义来说一定的维护还是必要的。首先它对环境温度要求较高,工作环境一般要求在20℃—25℃之间,低于15℃时,其放电容量下降,温度每降低1℃,其容量下降1%,而温度过高(大于30%℃)其寿命就会缩短;
其次,要防止电池短路或深度放电,深度放电会造成电池内阻增大或充电电压过低从而导致降低甚至失去充电能力,放电程度越深,循环寿命越短;
第三,要避免大电流充放电,否则会造成电池极板膨胀变形,使得极板活性物质脱落,内阻增大,容量下降,寿命缩短;
第四,由于组合电池电压很高,存在电击危险,因此装卸导电联接条、输出线时应有安全保障;
第五,对于不经常停电的地区,建议用户每隔一个月对UPS进行一次人为的断电,让UPS电源在逆变状态下工作一段时间,防止电解液沉淀,以便让蓄电池维持良好的充放电特性,延长使用寿命;
第六,搬运电池时不要触动极柱和安全排气阀;
第七,不能用二氧化碳灭火器,一旦发生火灾,可用四氧化碳之类的灭火器; 第八,不能把不同容量、不同厂家、不同性能的电池联在一起,否则会影响整组蓄电池的性能。
同时,要定期对电池进行检查、测量,并做好记录。检查项目包括:整组电池的浮充电压,单体电池浮充电压,测单体电池电压时,应在电池放电状态下进行,否则测得的结果会是假电压,经验作法是在测量时,万用表两端并联一个1—3欧母的电阻丝;检查电池是否损坏,壳、盖间有无泄漏,表面是否有灰尘等杂物,电池架、连接线、端子是否有松动或锈蚀等。雾溢出主要是排气阀附近。
第十二章 运维服务与管理
定期巡检计划:
每月对设备定期巡检一次,检查服务器、电脑、打印机、路由器、交换机、视频会议设备、网络设备等维护内容中的所有设备的使用状况,集中处理相关故障,并严格按照相关表格填写局域网及各设备的运行状况,并做出分析意见与建议。
测试记录各设备的运行状态,如正常,则在对应的维护检查表内写测试数据,如有异常,则在表格内写测试数据,在备注栏内写原因;并在遗留问题中总结测试结果。对非测试项目的问题在检修过程中是否发现新的问题及对内容作填写,同时在相应的设备记录表上填写详细的异常内容,并按相关规定进行处理。
设备维护及更换流程
甲方与我公司签订维护合同后,维护内容中的设备,在维护合同内出现损坏需要维修或更换,将由我公司代为负责处理。
保修期内返厂维修:指企业需要维修或更换的设备在厂家规定的标准保修期内,坏件返回工厂维修,维护人员跟进全返厂维修过程,直至设备正常投入使用。
保修期外返厂维修:对已过保修期的坏件,由维护人员联系厂家,根据厂家的维修费用收费要求向甲方提交《设备维修费用申请报告》,获得批准后,维护人员将坏件送入工厂进行维修,跟进全过程,直至设备正常投入使用。
技术人员现场值守运行维护服务的基本操作流程如下图所示:
IT资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资
一. 服务与管理 1. 服务时间
(1) 接收服务请求和咨询:
在5*8 小时工作时间内在现场值守,设置由常驻人员的电话,接听内部的服务请求,并记录事件处理结果。
(2) 在非工作时间设置7*24 小时接听的移动电话热线,用于解决内部的技
术问题以及接听7*24 小时机房监控人员的机房突发情况汇报。 (3) 服务响应时间:
故障级别 I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。 响应时间 1小时,2小时内提交故障处理方案 故障解决时间 12小时以内 II级:属于严重问题;其具体现象为:出现2小时,3小时内提部分部件失效、系统性能下降但能正常运行,交故障处理方案 不影响正常业务运作。 III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。 IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。 3小时,4小时内提交故障处理方案 4小时,4小时内提交故障处理方案 24小时以内 48小时以内 72小时以内 技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于12小时内解决故障,公司将在24小时内提出应急方案,确保业务系统的运行。故障解决后24小时后,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。
2. 行为规范
(1) 遵守用户的各项规章制度,严格按照用户相应的规章制度办事。 (2) 与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技
术支持工作。
(3) 出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。 (4) 现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。接听电
话时要文明礼貌,语言清晰明了,语气和善。
(5) 遵守保密原则。对被支持单位的网络、主机、系统软件、应用软件等的
密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。
3. 现场服务支持规范
运维服务人员要做到耐心、细心、热心的服务。工作要做到事事有记录、事事有反馈、重大问题及时汇报。严格遵守工作作息时间,严格按照服务工作流程操作。
(1) 现场支持工程师应着装整洁、言行礼貌大方,技术专业,操作熟练、严
谨、规范;现场支持时必须遵守用户单位的相关规章制度。
(2) 现场支持工程师在进行现场支持工作时必须在保证数据和系统安全的
前提下开展工作。
(3) 现场支持时出现暂时无法解决的故障或其他新的故障时,应告知用户并
及时上报负责人,寻找其他解决途径。
(4) 故障解决后,现场支持工程师要详细记录问题的发生时间、地点、提出
人和问题描述,并形成书面文档,必要时应向用户介绍故障出现的原因及预防方法和解决技巧。
4问题反馈
根据使用人员提出问题的类别,将问题分为咨询类问题和系统缺陷类问题二类:咨询类问题是指通过服务热线或现场解疑等方式能够当场解决用户提出的问题,具有问题解答直接、快速和实时的特点,该问题到现场支持人员处即可中止,对于该类问题的记录可使用咨询类问题记录模版进行记录。系统缺陷类问题是指使用人员提出的问题涉及到系统相应环节的确认修改,需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要IT系统运维服务项目组的分析确认,问题有解决方案后,将解决方案反馈给用户。具体提交流程如下:
(1) 问题提交。应用信息系统的用户发现属于系统缺陷类的问题时,填写系
统缺陷类问题提交单,提交服务支持中心。
(2) 问题分析。服务中心接到用户提交的问题单,要组织相应人员对问题单
中描述的问题进行分析研判,确定问题的类型(技术问题、业务问题或者操作问题)。属于技术问题,提交服务中心技术人员对存在的问题提出具体的处理意见和建议;属于业务问题,提交服务中心业务人员进行处理;属于操作问题,可安排相关人员对问题提出人进行解释,并将系统缺陷类问题提交单转为系统咨询类问题提交单。
(3) 问题确认、解决。服务中心的技术人员和业务人员收到系统缺陷类问题
提交单后,对提交的问题进行归类汇总和分析、确认。可以解决的,明确问题解决的具体处理建议和措施,经主管领导签字同意后,交实施人员进行解决方案的实施。服务人员确认是否解决,并将解决方法附在系统缺陷类问题提交单上反馈给问题提出人员。
(4) 问题上报。服务人员收到经业务或技术人员确认的系统缺陷类问题提交
单后,上报服务中心。
(5) 问题回复。服务中心根据提交问题的进行分析,制定解决方案并进行实
施的解决,同时做好变更记录。将解决方案汇总后及时向问题提交单位或问题交办单位作出回复,并将分析过程和问题产生原因一并提交。
二. 应急服务响应措施
公司已经针对本项目制定了详尽的设计、应急处理预案,整个流程严谨而有序。但是,在服务维护过程中,意外情况将难以完全避免。下面,我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。
1. 应急基本流程
出现突发情况问题报告单报项目经理项目经理协调、处理处理记录采取措施避免类似事件发生情况通报单结束 维护服务应急处理流程
2. 预防措施
针对上门服务过程中可能遇到的各种各样的风险,公司总结多年维护服务经验,针对一些可能出现的情况,制定了一系列预防处理措施,举例如下:
类型 事件 无法启动软件可执行文件 应用软件 软件打开过程中或运行中异常错误关闭 预防措施 上门人员提前准备好各类需维护软件安装程序 上门人员准备好安装程序,操作系统优化和修补软件,查杀病毒软件 准备好系统检查程序及修补程序,以及查杀病毒软件 处理 将应用软件数据文件备份后,重新安装 判断出错原因,备份数据,采取相关修复措施 告知使用者错误原因可能类型,提出解决方案,经使用者认可后采取相应措施 使用者本机操作系统异常或系统资源占用严重 操作系统 B/S结构系统,IE浏览器异常或无法下载控件 准备流氓软件清理程序、检查IE浏览器选项设修复浏览器软件、查杀病置,分析原因进行修复 毒软件 判断服务器是否异常,否则准备杀毒软件 检查网络流量,流量异常小则报修网络服务商,流量异常大则查杀病毒 网络或服务器 B/S结构系统网络流量异常或服务器登录异常 3. 突发事件应急策略
系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,公司设计了完善的突发事件应急策略。
系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情
况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解
决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
**公司不但拥有经验丰富的技术支持工程师,而且根据长期以来的客户服
务工作经验,建立了常用知识库,其中包括多种常见技术故障和突发事件的应急策略。当获悉出现突发事件时,技术支持人员可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。
紧急情况 硬件损坏 预防措施 项目单位操作用电脑硬件损坏 应急策略 在磁盘数据未丢失情况下,保证数据安全性,建议项目单位替换相关硬件。 操作失误 操作失误未造成即成结果或数据未丢失情加强培训力度,掌握培训效果,检验况下,保障数据安全,反之,协调相关部门,操作人员操作水准,提示注意事项。 进行补救。对操作人员强调注意事项 培训时强调使用前配置方法和步骤,并特别提示需在使用前按要求操作 培训时强调使用过程中注意定期备份重要数据,日常维护过程中,上门服务人员实时备份数据并告知用户 派出上门维护、培训人员重新配置,并耐心讲解。 协调有关部门,进行补救,无法补救,提交报告说明原因。 配置丢失 数据丢失 突发事件应急策略服务流程图如下:
资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资资
三. 机房服务器维护说明 1. 机房环境及物理检查 1.1) 机房环境
1. 温度与湿度:
最佳工作温度:20-25摄氏度 极限工作温度:10-40摄氏度
湿度: 10-60%(在23摄氏度条件下)
2. 同时机房要保证服务器清洁.
机房应保持服务器清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。定时使用皮老虎、刷子清除服务器灰尘。
1.2) 电源
电 压: 要求电压稳定, 尖峰电压会损坏设备 电压范围: 220V +/- 10%, 即200-240V, 50-60Hz 电源功率: 视机器类型和系统配置而定
电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V. 电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,对于冗于电源的接入,采用两路单独输入.
1.3) 硬件检查
检查服务器、磁阵的安装、电源线主机接线符合要求。服务器状态检查: 1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。
2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的面板报警数字信息查到相应告警原因,情况严重的,则要立即通知服务器厂商进行问题排查。
3. 当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关厂商进一步诊断。
4. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一
直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或RAID出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。
2. 系统日常维护流程 2.1) 系统启动
系统启动正常顺序如下:
首先对外设(磁盘阵列、磁带库等)加电。
待所有外设加电自检完成后, 主机加电正常起机。主机加电后,才能按POWER键起机.
2.2) 系统关闭
服务器系统关闭时,需要确认服务器的服务是否对现网业务有影响,同时需要对关闭的服务器运行中的程序进程确认,明确软件安全的关闭步骤,在进行关机操作。
2.3) 系统与数据备份
有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份:
1、新装机。在硬件及系统软件安装完成后,应做系统备份。 2、软件改动。系统软件或应用软件有改动时,应做系统备份。 3、定期备份。对系统进行定期备份,最好每三个月做一次备份
2.4) 系统恢复
当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,与上级确认后,可将最近一次的系统备份倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,应当厂商再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。
2.5) 安全工作守则
a统定期进行系统备份。
b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。 c.在发现有硬盘故障的时候,注意当天的数据备份。在更换硬盘的时候,请确认当天数据备份已经完成。
d.在更换敏感的电子元件,时候一定要防静电。 e.在插拔外围设备的时候,请把外围设备下电。 f.在进行文件删除的时候,请留意当前路径是否正确。 g.在进行文件解压缩的时候,请留意参数和路径。
3. 故障定位、故障排除
根据实际运行的系统中碰到问题,总结出了以下几种常见故障及其定位方式和解决方法。
故障处理流程
3.1) 硬件故障
硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类: 其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括: 主板、CPU、RAID卡、电源模块、风扇、本地硬盘、内存损坏等等
这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照错误原因,如果是工作状态下出现这些硬件损坏,则系
统将被挂起或宕机。
其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括: 网卡、本地硬盘有坏块、显卡、和其他外围设备
这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。 故障定位和排除: 液晶屏上的错误码
根据错误码确定是什么硬件出了故障,对系统来讲,原则上必须业务切换使得损坏服务器离线不影响用户使用的情况下,然后修复故障机器,恢复系统。
3.2) 磁阵故障
磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:
磁阵硬盘、主机上的RAID卡、与主机相连的SAS线、硬盘的位置和接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/RAID卡等都可能造成异常。
磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照经验,不管是什么硬件故障导致故障,系统都会产生告警,如果能及时发现问题并采取措施, 如果存在硬件故障时,可从状态灯上观察到:
当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮 阵列的状态灯黄灯会亮
服务器的磁阵所配置的RAID卡一般都带有一块充电电池,该电池用于在突然停电的情况下保护RAID卡上的信息不丢失,这块电池的安全寿命一般是22000小时,差不多两年半的时间,也就是说,一般两年半以后需要更换这块电池。 处理步骤: (按优选方式列出,从中选择一种即可) 更换服务器配件
选择系统闲时,更换主备机RAID卡电池,可以采用:
停备机-》更换备机RAID卡电池-》起备机(双机服务)-》主备倒换-》 停原主机-》更换原主机ssa卡电池-》起原主机(双机服务)
3.3) 网络故障
由于我们应用对网络依赖很强,所以当网络出现全阻或瞬断都将对系统产生重大影响,网络故障一般可分为硬件故障(如网卡故障和交换机、路由器故障)和软件故障(网络中有IP包攻击或网络拥塞)两种情况。 硬件故障: 1.网卡
对于网卡故障,每台机器都配置有至少两块网卡,所以当单块网卡或网线出现问题时,切换
网卡故障排查方法:如果诊断出网卡有问题,则关闭系统后进行更换。(如果是主机,则先手工切换为备机后再操作) 软件故障: 1.网络拥塞
由于系统在封闭网络中运行,所以发生网络拥塞的可能性比较小,但如果网络拓扑比较复杂的话,也可能发生这种情况,在主机上的表现为ping主机丢包严重,主机链路时通时断,数据包丢失,设备功能异常。 问题排查:
1) 尽量使内部应用的机器从网络上隔离出去 2) 如果情况仍未改善,建议配合机房查询网络
由于网络故障出现会导致远程登录失效,所以无法进行系统维护。所以建议任何一套服务器都要配置一个维护台。
3.4) OS故障
一般来说我们所使用的是一个比较稳定的操作系统,出现故障一般是人为因素引起的: 1. 没按要求打OS补丁
2. 应用程序或数据库消耗内存太多或存在内存泄漏导致物理内存被耗尽导致系统挂起 3. 人为删除了重要的目录或文件,如:C:/ /dev、/usr、/bin、/sbin、/etc等 故障排查:
1)查操作系统补丁是否符合要求 2)检查内存、CPU使用情况
第十三章 公司介绍
一. 公司简介
二. 公司资质
三. 公司成功案例
第十四章 数据中心相关运维表格
一. 巡检表单模板
巡检报告 **有限公司 客户名称: 客户地址: ***区数据中心 ***区45号 巡检时间: 客户联系电话: 巡检内容: xxxx-x-xx xxxxx 主机名: 主机IP地址: 主机运行情况: 联系人:xxxxx 方xxx 故障解决办法: 主机名: 主机IP地址: 主机运行情况: 故障解决办法: 主机名: 主机IP地址: 主机运行情况: 故障解决办法: 主机名: 主机IP地址: 主机运行情况: 故障解决办法: 已解决问题: 未解决问题: 客户建议: 客户签字: 巡检工程师签字:
二. 网络设备维护巡检模板
客户负责人 巡检工程师 巡检日期 开始时间: 2014 年 月 日 结束时间: 2014 年 月 日 机房环境: 机房地址 温度 湿度 电源 巡检设备 □ 正常 □ 不正常 具体温度: □ 正常 □ 不正常 具体湿度: □ 正常 □ 不正常 具体电压: 设备名称: 编号: 硬件外观检查: 冗余电源灯 系统指示灯 电源指示灯 接口卡指示灯 电源连接 □ 正常 (无) □ 不正常 □ 正常 (绿,不闪烁) □ 不正常 □ 正常 (绿,不闪烁) □ 不正常 □ 正常 (绿) □ 不正常 □ 正常 □ 不正常 系统检查 日志检查 CPU利用率 内存利用率 缓存利用率 板卡状态 Flash状态 电源状态 : 近期有无故障记录: □无 □有 □未满 □已满 具体利用率: □未满 □已满 具体利用率: □未满 □已满 具体利用率: □正常 □不正常 □正常 □不正常 电压:□正常 □不正常 温度:□正常 □不正常 路由表状态 VLAN状态 热备份状态 系统报错 操作系统版本 □正常 □不正常 □正常 □不正常 □正常 □不正常 □正常 □不正常 IOS/VRP 版本: 上次设备启动时间 启动时间: 及原因 原因: 系统及配置 隐患 □有 □无 网络连通性: 物理接口状态 VLAN接口状态 PING包测试 □正常 □不正常 □正常 □不正常 丢包:□有 □无 用时: /ms 巡检总结: 上次巡检存在问题解决情况: 本次巡检存在问题及解决时间:
三. 机房安全巡检模板
四. 服务器系统安装确认单
序号 1 2 3 4 序号 1 2 3 序号 1 2 3 序号 1 2 3 4 5 6 7 8 服务器参数 应用服务器操作系统/位数 系统安装目录 系统备份目录 系统自动备份时间 系统角色 系统管理员用户名/密码 管理员用户名/密码 …… 访问方式 内网服务器地址 外网服务器地址 外网访问域名 …… 数据库参数 数据库ip地址 d:/ UFseeyon/XX/Group/ d: /XXbackup/ 每天3:00 用户名/密码 Admin/xxxxx User/xxxx 访问地址 http://192.168.1.xxx http://124.104.51.xx/ http://xxx.xxxx.com 参数值 192.168.1.xxx 环境 应用服务器 操作系统 IE版本 安装地址 是否有外网访问 是否有外网IP D:\\Program Files\\XXX 备注 备注 参数值 备注 备注 数据库服务器操作系统/位数 数据库/版本 数据库服务器用户名/密码 数据库名称 系统用户名/密码 平台用户名/密码 控制台访问地址 名称 root/123456 XXXXDB Xxxxx/xxxxx 是否有office版本 是否有杀毒软件 安装人员签字: 用户签字:
五. 服务器安全检查基准
检查子项 问题带来的风险 恶意分子利用默认帐号暴力破解。 常见的暴力破解办法就是利用大多数管理员安全意识疏忽采用默认管理员帐号。运用黑客工具可暴力破解管理员帐号的密码。 检查项 检查内容 检查方式 检查 结果 系统默认帐户和用户名进行改名,密码符合长度要求; 进入“控制面板->管理工具->计算机管理->本地用户和组”,在“用户”中,选择默认管理员,点右键,选择“重命名”。命名长度必须是8位以上。 1,在“开始”—“运行”,输入 gpedit.msc,打开组策略管理器 2,在组策略管理中,依次打开 “计算机配置”---“Windows 设置”—“安全设置”—“本地策略”—“用户权限指派”。 3,在“用户权限指派”中,根据你的实际情况,对每个用户指定最适当的权利。 进入“控制面板->管理工具->计算机管理->本地用户和组”,根据需要管理帐户。 安全管理 用户 管理 合理规划帐户的权限,帐户的分配基于最小权限原则; 多余权限会被黑客利用。 用户和帐户集中统一管理,专人负责发放和回收; 不规范的帐号发放会让管理出现混乱和让黑客有机可寻。 当用户连续认证失败次数超过3次,锁定该用户使用的账号。 会给暴力破解带来机会。 进入“控制面板->管理工具->本地安全策略”,在“帐户策略->帐户锁定策略”: 查看是否“账户锁定阀值”设置为小于等于 3次,“帐户锁定时间”设置为20分钟,“复位帐户锁定计数器”设置为20分钟以后。 禁止网络默认共享,禁止枚举域内用户 利用这些开放的共享信息,恶意人员通过这些可以获得系统信息,并通过IPC$枚举域内用户。 禁用netbios服务 注册表安全 会被黑客使用SYN碎片和DDOS攻击。 防范SYN攻击 在HKEY_LOCAL_MACHINE\\SYSTEM\\CurrentControlSet\\Services\\Tcpip\\Parameters 下,修改SynAttackProtect的值为2。并添加以下数据 EnablePMTUDiscovery REG_DWORD 0 NoNameReleaseOnDemand REG_DWORD 1 EnableDeadGWDetect REG_DWORD 0 KeepAliveTime REG_DWORD 300,000 定期检查备份系统的状态。 定期备份数据。 数据 备份 漏洞与补丁 防止硬件故障将数据备份到文件或磁导致数据无法带,备份系统状态检查 使用。 计划使用增量和完全备防止硬件故障份结合,良好控制备份导致数据无法的可还原性; 使用。 黑客会利用定期安装补丁和安全更WINDOWS漏洞新,包括系统、组件、对系统进行攻应用程序的更新; 击。 黑客会利用定期检查补丁安装的情WINDOWS漏洞况,可用日志与MBSA对系统进行攻分析结合检查; 击。 检查Windows服务器是Windows系统否都安装了防病毒软易感染病毒,件,病毒库是否升级到给内部网带来了最新版本 较大风险 定期更新补丁。 定期核查并记录在案。 安装防病毒软件,升级防病毒库到最新 如需启用IIS服务,则将IIS升级到最新补丁。 使用securews.inf配置模板进行修改和对应分析; 审核登陆事件和目录访问; 没有及时更新系统补丁,这样一旦发现系统漏洞,则存在被黑客攻击的安全隐患。 预防黑客攻击。 预防黑客攻击和用户的恶意访问。 减少磁盘碎片,扩展磁盘配额、EFS等安全功能。 防止用户的恶意访问。 防止用户的恶意访问。 控制面板->添加或删除程序->显示更新打钩,查看是否安装IIS补丁包。 安全配置 访问控制 使用安全配置审核 在日志中审核登陆记录,并审核恶意访问的记录。 将所有FAT32转换为NTFS格式。 检查每个卷,确定只给administrator组和system完全权限。 配置EFS给文件加密。 本地策略模板 所有分区使用NTFS; 数据安全配置数据 存储 数据 保护 所有卷只给administrator组和system完全权限; 重要数据的本地存储要求使用EFS加密保护; 关键系统间的通信要求使用IPSEC封装,避免被侦听; 防止在传输过要求数据通讯的双方程中被侦听。 都配置IPSEC。 这些不必要的服务开启完全可能被恶意分子利用,有些服务的开启有可能通过网络共享资源泄漏出系统的敏感信息或者通过一些不必要的服务开启利用共享资源浏览一些而这些其它机器上的信息,信息的泄漏都是在用户不知情的情况下发生的。因为开启了这些服务后,这些服务会自动跟踪网络上一个域内的机器,允许用户通过网上邻居来发现他们不知道确切名字的共享资源。而且检查Windows服务器是否开启了一些危险的缺服务访省服务,若存在应及时问控制 关闭。否则会成为潜在威胁。 关闭Windows主机的一些有危险的缺省服务:禁用alerter、clipbook、commputer browser、messenger、Routing and Remote Access、Telnet、remote registry等服务 浏览这些资源是不通过任何授权的。 检查Windows服务器是否没有关闭远程注册表服务 如果恶意分子利用远程修改注册表键值,可以修改部分主机属性,为远程获取主机信息,甚至远程控制主机提供便利。应及时关闭远程注册表项。 防止黑客利用多余的网络连接。 减少黑客攻击的风险。 关闭windows主机的远程注册表服务remote registry 日常维护 网络访问控制 使用TCP/IP筛选过滤网络访问,至少关闭高危和服务不必要的端口; 检查Windows服务器注册表HKLM\\software\\microsoft\\DrWatson\\CreateCrashDump 键值是否不合理。若存在,一旦存到磁盘上很可能泄露一些敏感信息。(注:异常监Dr.Watson是控 Microsoft用来处理应用程序错误的一个实用程序。它可以Dump一个出错应用程序的内存以便进行分析。但是Dump出来的数据中肯能会含有敏感信息,因此应该防止Dr. Watson crash dump到磁盘上。) 防火墙配置默认禁止所有网络访问的条件许可可信通信; 核对网络访问,核查异常连接。配置防火墙只开放允许的连接和服务。 关闭一些不必要的TCP/IP端口。 Dr.Watson是Microsoft用来处理应用程序错误的一个实用程序。它可以Dump一个出错应用程序的内存以便进行分析。但是Dump出来的数据中肯能会含有敏感信息,因此应该防止Dr. Watson crash dump到磁盘上。 更改键值为0 防止有恶意用户故意制造程序错误来重起机器以进行破坏操作。致使正在编辑、修改的资料和信息来不及保存就重启机器,导致文件丢失。或者使正通过登录查看Windows在运行的程序主机注册表后发现注册由于没有写入表成功,导致文HKLM\\System\\CurrentC件破坏。有一ontrolSet\\Control\\Cr些恶意程序需ashControl\\AutoReboo要 重新启动t键值不合理,存在安后才能运行,全隐患应该及时更改。 如果键值不合理,遭到恶意程序入侵后恶意程序主动制造程序错误导致系统自动重新启动,会造成恶意程序直接运行,泄漏系统信息或对系统造成破坏。 更改键值为0 六. 数据中心拜访人员登记模板
日期 来访姓名 来访单位 到达 时间 离开时间 工作内容 受访人 监督人 七. 数据中心人员月考核模板 序分类 号 分类指标名称 合计 指标定义及标准 计分 备 注 第一大类:KPI指标考核 热线接通率 运维人员要求 1. 用户投诉一次,扣1分 2. 甲方发现一次,扣1分 1 2 30 技术水平 用户投诉一次,扣0.5分 3 更换运维每次扣10分 人员 10分钟内电话处每超过10分钟扣0.2分 理 30分钟内到场处每超过10分钟扣0.2分 理 4小时排每超过10分钟扣0.2分,特除故障 殊故障除外. 主动巡检 20 日/周/季每发现一次不按时提交,扣报 0.1分. 电话回访用户不满发次扣1分 意 第三大类:加分 收到客户客户表扬或电表扬 话回访非常满意 提供承担工作额外以外的服服务 务 4 故障40 5 处理 6 7 客户8 满意度 满分合计 10 100 9 每次加1到2分 10 每次加2到5分 甲方管理人员意见 八. 服务器突发故障记录表
九. 服务器故障处理报告
报告名称: 报告填写人 事件识别号 报告人联系电话/EMAIL 事件描述(简要说明发生了什么、如何发生的、造成了哪些负面影响等。) 发现日期 报告事件日期 具体时间 具体时间 故障影响范围和后果 范围: 后果: 事件类型 盗窃□ 欺诈□ 破坏/物理损害□ 恶意代码□ 黑客攻击/逻辑渗透□ 滥用资源□ 故意泄故意的 漏□ 篡改□ 其他□ 硬件故障□ 软件故障□ 通信故障□ 火灾□ 洪水□ 其他自然异常现象□ 重要服务丧失意外的 □ 人员短缺□ 其他 错误造成 操作错误□ 硬件维护错误□ 软件维护错误□ 用户错误□ 设计错误□ 其他□ 事件严重级别 重大 □ 一般 □ 缺陷 □ 事件补救措施及处理结果描述 事件处理报告(分析改进续页)
报告编号: IDX事件识别号 事件后续调查结果 经调查,以上事件过程描述属实。 调查负责人签字 事件分析 日期 项目负责人签字 客户单位签字 日期 事件后续改进措施 日期 事件后续改进措施的效果 事件处理总协调人签字 日期
十. 常驻人员签到表
姓名: 日期 1 2 3 4 5 6 7 8 9 10 11 12 13 上班时间——下班时间 部门: 病假 事假 婚假 丧假 工龄假 年 月 请假原因 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 客户签字: 时间:
因篇幅问题不能全部显示,请点此查看更多更全内容