Oracle集群常见故障三例

2016-11-26 05:19
网络安全和信息化 2016年5期
关键词:小型机磁盘阵列客户端

引言:笔者单位部署了基于ORACLE RAC集群的集中存储平台,结合几年来的运行经验,就维护过程中常见的三例ORACLE RAC集群的故障作简要介绍和排除方法。

故障一:客户端无法连接ORACLE服务器。

故障排除:

笔者首先确保服务器所有服务启动。需在数据库服务器端(可在集群的任意节点上)进行,执行命令:crs_stat t,检查所有服务的启动状态,然后用lsnrctl stat查看监听中是否有要连接的服务。如果没有需要连接的服务,使用sqlplus本地连接数据库,启动数据库,使需要连接的数据库处于OPEN状态。

其次配置客户端hosts文件。这里以安装在Windows XP操作系统的客户端为例,使用记事本程序编辑hosts文件,文件位于 C:windowssystem32driversetc目录下,在末行添加ORACLE服务器的主机名和IP信息,内容如下:

然后使用记事本程序配置客户端tnsnames.ora文件。该文件位于(D:Oracleproduct10.1.0Client_1)NETWORKADMIN目录下,括号里的内容以oracle安装位置为准。需在tnsnames.ora文件内添加监听的ORACLE服务器的主机VIP IP和监听端口信息,内容如下:

最后进行测试。使用客户机ping集群服务器的各个节点。执行命令C:>Ping rac1-vip,C:>ping rac2-vip,ping通之后,执行命令C:>tnsping orcl,如果返回时间,表示客户端连接正常。

故障二:小型机HACMP无法正常启动。

故障排除:

笔者首先检查小型机的共享存储状况。以root用户权限查看能否看到磁盘阵列划过来的磁盘:#lspv。

其次确认磁盘阵列和光纤交换机是否开机加电。如果没有看到从磁盘阵列划分的磁盘,需确认磁盘阵列和光纤交换机是否开机加电。按照先磁盘阵列后光纤交换机的顺序加电、开机。状态稳定后,使用:#shutdown

Fr now命令重新启动所有小型机:。

然后确认小型机之间的心跳网线的连接状况。如果在第一步中已经查看到从磁盘阵列划分的磁盘,那现在需要确认小型机之间的心跳网线的连接状况。并从rac1上 ping rac2-priv,从 rac2上 ping rac1-priv,如果有丢包,则需更换心跳网线。

最后再次启动HACMP。

故障三:小型机2与小型机1的HACMP状态不同步。

故障排除:

首先需停止所有小型机的HACMP。在停止HACMP之前,要先停止数据库服务(使用以下命令:$srvctl stop database d orcl)和 CRS集群(使用以下命令:#crsctl stop crs),然后在所有节点以root用户权限执行:#smit clstop命令停止所有小型机的HACMP。

其次在小型机2上使用#lsvg查看ORACLE数据卷组(oravg)的名称。查看该卷组的major number。使用

#lvgenmajor oravg

进行查询并记录。在小型机2上执行#smitty vg后选择exportvg将oravg导出,同时选择importvg将oravg导入,导入时输入vg name后点选oravg中的任意一个pv(系统指定的pv名 一 般 为 hdisk*)。oravg导入成功后,从小型机1向小型机2同步。在小型机1上以root用户权限执行

#smitty hacmp

选择Extend Configura tion →Extend Verification and Synchronization→Automatically correct errors found during verification,按F4进入后,选择Yes并回车。

最后在所有小型机上查看裸设备权限。

#ls l /dev/r*,

如果权限不一致,使用:

#chmod 775 /dev/rhdisk*

进行修改。在裸设备权限一致后再次启动HACMP。

猜你喜欢
小型机磁盘阵列客户端
如何看待传统媒体新闻客户端的“断舍离”?
更换磁盘阵列磁盘
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
大枢纽 云平台 客户端——中央人民广播电台的探索之路
LSIRAIDBIOS实现磁盘阵列重建
民航空管大数据存储下AIX服务器快速恢复方法
数据中心去小型机化可行性研究
小型机:背水一战
存储虚拟化的三个层次