본문 바로가기

WAS/WebLogic

Admin 및 Managed Server 상태가 Fail 임에도 서비스 되는 현상

728x90

고객사 지원했던 경험중, 다음과 같은 현상이 있었다.

OS가 갑자기 리부트 되어버리는 바람에 서버의 상태가 정상에서 Failed 상태로 변했다.

로그에는 다음의 메시지가 있었다.

weblogic.store.PersistentStoreException:weblogic.store.PersistentStoreException:

 

다만 Managed server의 상태가 실패 상태임에도, 왜 정상적으로 서비스가 됐는지에 대해서는 불분명한 상황.

이에대한 답변으로,

 

1. DAT 파일은 인스턴스와 애플리케이션으로부터 수집되는 모든 데이터의 이벤트, 로그 기록등을 저장하는 공간
2. DAT 파일 손상의 가장 큰 영향을 주는 요소는 OS의 비정상적인 종료
3. 이전에 DR 작업중에 발생한 FAILED 상태는 그 당시의 로그 및 상황 설명이 더 필요함
4. FAILED 상태는 OS의 비정상 적인 종료로 인해 발생한 것으로 보이며,
DAT 파일은 모든 데이터의 이벤트, 로그 기록등을 저장이기에 client의 request를 받는데에는 문제가 없었을 거로 보이며,
WAS 상에 애플리케이션 로그가 찍히고, Web-server 상에서도 http 상태코드 200이 나온 것

 

조치 방안은

1) ${DOMAIN_HOME}/servers/${INSTANCE}/data/store/diagnotics 디렉토리 백업 및 삭제

2) ${DOMAIN_HOME}/servers/${INSTANCE}/cache 디렉토리 백업 및 삭제

3) ${DOMAIN_HOME}/servers/${INSTANCE}/tmp 디렉토리 백업 및 삭제

4) 위의 작업을 마친 인스턴스에 대해 재기동 작업 수행

5) 정상 동작 확인

 

필요하다면 WLS Console에서
Environment -> Servers -> <해당 server> -> Configuration -> Overload 로 설정.

이 옵션은 Server Failed 상태에 빠지면 강제적으로 인스턴스를 강제 종료할 수 있는 옵션.

하지만 해당 옵션을 적용하게 되면, Server Failed 상태에 빠진 인스턴스에

정상적인 조치가 이루어지기 전까지는 인스턴스가 기동 되지 않는다.