航管信息自动化处理系统(AIMS)故障分析

2017-03-15 20:28孙永强
科学与财富 2017年3期
关键词:日志数据库

孙永强

摘 要:航管信息自动化处理系统(AIMS)的故障处理涵盖多方面因素,包括物理链路、服务器、数据库、系统进程等几方面,本文介绍的是由于系统日志积压过多,windows服务器某一进程占用两种情况共同导致的故障,通过对加入脚本,对数据库日志自动清理可以避免该问题的再次发生。

关键词:AIMS;数据库;日志

航管信息自动化处理系统是由北京航管科技有限公司研发的航行计划动态处理系统,我分局于2013年启用,本套系统投入运行之后,极大地提高管制数据自动化处理的能力,程序化、标准化管制员的日常操作,降低人为差错的可能性,及时准确的在部门、管制单位甚至区域间传递信息,并且可以实时为流量管理、协同决策、起飞前放行以及自动化等系统提供有力的数据支持。涵盖了报文收发分解、计划维护、SSR管理、进程单打印、数据统计分析、数据发布等功能。

我分局AIMS系统架构采用两台服务器互为热备,另有一台windows服务器作为数据同步服务器,通过路由器与交换机接入塔台、进近、站调等终端用户,通过ATM线路与东北局相连,接入民航局ATM网络已达到数据交互(如图1所示)。

今年九月份AIMS系统出现异常现象:出港航班正常发报后再FMD界面报文不消失,依旧在界面上存在;站调客户端出现报文异常,无法接受部分报文。

此次故障导致管制部门不能够准确获知航班飞行计划,航行动态,对管制工作造成重要影响。

接到故障报告之后,立即开展故障排查工作。首先查看前台监控终端,发现进出港航班信息均不刷新,无新报文显示;通过telnet链接AIMS的服务器,均出现了无响应的情况;监控平台显示AIMS服务器出现告警信息,数据库出现异常(如图2所示)。

后直接通过KVM查看服务器运行状态,经排查发现远程维护的联网Windows服务器自身出现了socket占用满的情况(windows系统自身回收socket存在的bug).由于联网windows服務器的这个bug会导致此联网windows系统无法远程登录各个linux服务器和终端,故重启此联网windows服务器.联网Windows服务器重启后,登录linux系统数据库,发现数据库响应过慢并且有大量内存和文件占用情况,后在主备数据库服务器上执行了日志清理和数据库备份工作. 清理日志后,AIMS系统恢复正常.正常后对塔台和站调用户进行了电话询问,站调用户反映入值班的数据与经验值过少,经对比历史数据,发现数据一致.后续请站调部门帮忙继续观察,如有问题,及时电话联系,后续没有收到任何异常反馈. 系统正常后,在linux服务器上加入了定期清理数据库日志的脚本.后续系统会每天自动清理过期的日志,过期失效的时间为60天.

经过对AIMS服务器端的查看分析,此次故障主要有以下两方面原因引起:1.服务器数据库的系统日志过多,导致服务器内部程序响应时间超时;2.windows系统socket占用慢的情况,给具体的linux系统的异常排查带来障碍。

结合此次故障排查的经过以及厂家工程师方面的具体建议,此类故障具体的应对措施可以采用下列步骤:在AIMS两台服务器中加入数据库日志自动清理脚本,后续的数据库日志会每天自动清理,并将日志记录保留。这样可以最大限度的释放系统内存空间,防止由于日志过多的原因导致某一进程卡死;其次对于windows服务器系统socket占用满的情况,在现有server08系统上修改配置也无法解决,需要定期进行操作系统的维护工作.建议定期系统维护时,对联网windows服务器系统进行维护工作。

参考文献

[1]《航管信息自动化处理系统运行维护手册》.

猜你喜欢
日志数据库
扶贫日志
雅皮的心情日志
雅皮的心情日志
游学日志
数据库
数据库
数据库
数据库
数据库
高速公路日志管理系统