浅谈企业级服务器故障分析及排除

2013-08-15 00:42孙将陵
网络安全技术与应用 2013年8期
关键词:架构服务器软件

孙将陵

(太湖流域水文水资源监测中心 江苏 214024)

0 前言

目前,企业级服务器主要应用于处理大量数据、对数据处理速度和可靠性要求较高的企业和重要行业,它可为企业提电子商务、ERP(企业资源配置)、OA(办公自动化)等服务。

1 服务器硬件分析

1.1 硬件性能分析

为了更快地发现企业级服务器的故障并对其进行有效排除, 必须对其特性有深入的了解。企业级服务器类属高档服务器, 大都支持 4 ~ 8个PIII Xeon(至强)或 P4 Xeon (至强)处理器, 并拥有独立双 PCI通道及内存扩展板设计, 要具有高内存的带宽、大容量的热插拔硬盘及电源、强大的数据处理功能,同时还要求必须有高度容错的能力、优异的系统及系统扩散性能和超长的系统运行时间。

1.2 硬件分类

按企业级服务器的架构不同,可分为CISC架构服务器与RISC架构服务器。CISC架构服务器采用的是英特尔架构技术,通常我们所说的PC服务器就是CISC架构服务器,而RISC架构服务器采用的则是非英特尔架构技术,比如采用Alpha、Power PC、PA-RISC、Sparc等RISC CPU的服务器。就两种服务器的性价比来说,RISC 架构服务器比CISC架构服务器要高出许多,而且随着计算机技术的飞速发展,RISC架构服务器与IA架构服务器间的技术差距也变得越来越小, 由于性价比的原因,很多要求相对不高的企业选择IA架构服务器。但RISC架构服务器在许多大关键、大型的应用领域,仍占据十分重要的地位。

2 服务器常见故障分析

2.1 硬件故障

正常情况下,服务器硬件发生故障的概率较低,主要故障多数是由服务器内部的散热受阻等问题引起的,因此,要经常检查服务器的相关散热部件,察看是否有因灰尘较多而影响通风散热等现象。其次是由于硬件耗损而出现的故障, 按常见的硬件故障率,可将企业级服务器硬件的故障出现率从低到高排列为电源系统、CPU、内存、外部总线以及负载系统。接触不良的现象在硬件故障中比较常见,主要是各种内存、卡类及CPU 等部件与主板间的接触不良, 或者是电源线及数据线的接触不良。这种故障相对比较容易解决,可以通过更换相关位置的插槽或者擦拭金手指等方法来解决。

2.2 软件故障

企业级服务器中的软件故障约占服务器故障的70%,是服务器故障中出现机率较大的故障。引起服务器软件出现故障的因素有很多, 较为常见的有:服务器BIOS版本过低、服务器管理软件或驱动程序中有BUG、应用程序故障以及人为的软件故障等。此外,还有因为软件升级和病毒导致的软件停止运行与意外断电等。服务器软件的故障诊断比较复杂,首先应明确是否是不当的人为操作引起的,然后再根据相关日志、警示声响、错误代码及可疑程序等来进行诊断。软件故障中最难诊断的便是软件冲突所引起的故障, 这种故障更多的是要求管理人员和维护人员有足够的经验及高度的观察分析能力。

病毒也是引起软件故障的关键因素之一,虽然不能称其为主机故障, 但它同样也引起了服务器的运行问题,因此将病毒也归为软件故障。一些病毒的发作现象跟硬件或软件故障的现象十分类似,引导型病毒便是其中典型的一个例子。大多数病毒一开始是依附在系统的某一个软件或是用户程序上面,然后再进行扩散。病毒发作时会威胁服务器正常的运行,破坏数据和程序。可以通过攻击面的减小、安全更新的应用、防火墙的启用及漏洞扫描程序等方法来进行病毒防护。此外,还要注意黑客的入侵等原因引起的服务器故障,在服务器构建的初期制定安全防护方案,物力防御和软件防御同时进行。

3 服务器故障排除

3.1 硬件故障排除

目前很多企业级服务器都自带有硬件固件测试程序,利用硬件固件测试程序和故障的代码显示结果,便可对故障做出初步的诊断定位。按照主机硬件负载的相关理论,在确保主机硬件正常运行的情况下,对主机的最小化负载进行诊断, 准确地找出故障点后, 再通过更换硬件来完成服务器的硬件维修工作。另外,还应该注意网关问题,假如网关出现了问题, 将会直接导致不能正常连接等问题的出现。这种情况比较容易处理, 只需更换网关, 故障便可排除。

3.2 软件故障排除

对企业级服务器的软件故障进行排除,必须要经常对FIRMWARE与BIOS进行更新,其次也不能忽视对服务器软件的更新,经常对其进行更新可解决由BUG 等软件问题所引起的软件故障。另外也要注意,错误的升级方法也可能导致服务器出现软件故障等问题,可以进行服务器内部程序清除、相关日志检查等工作来完成服务器故障的排除。最后是人为因素引起的软件故障, 这类故障可通过相关的培训来解决, 让相关人员进行专业的学习,养成好的机器使用习惯,经常保存数据, 防止由于意外停电或非正常操作等因素而引起的意外关机及数据丢失现象的发生。

4 结束语

企业级服务器是整个企业信息得以有效运行的关键,服务器故障的分析与排除, 更多的是依靠维护人员的意识、经验与细心。服务器日常的维护工作也是必须的, 其所处环境对其本身的的影响是十分重要的, 它直接影响到服务器硬件的使用寿命。因此,要保持服务器所处环境的温度和湿度, 还要有必要的防火、防水及防尘等措施。在对软件进行维护时可以从网络系统、操作系统、数据库和用户数据等方面进行,及时做好漏洞补丁安装、数据优化和数据备份等工作,同时还要在更换或卸载设备的时候做好断电、主机接地等工作,防止由静电引起的设备损坏。

[1]李胜峰.PC服务器故障分析与维护处理的探讨[J].计算机工程应用技术.2012,(06):159-160.

[2]卢洁仪.Web 服务器的故排查与处理[J].信息与电脑.2011,(21):247-248.

[3]冯艳丽.小议企业级服务器故障分析及排除[J].信息科学.2009,(01):39.

[4]李奕.云数据中心时代 企业级服务器走向低功耗[].中国计算机报.2012,(025):1-2

猜你喜欢
架构服务器软件
基于FPGA的RNN硬件加速架构
禅宗软件
功能架构在电子电气架构开发中的应用和实践
通信控制服务器(CCS)维护终端的设计与实现
基于云服务的图书馆IT架构
软件对对碰
WebGIS架构下的地理信息系统构建研究
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御