HPE 3PAR Storage fault Disk replacement

** 3PAR 스토리지의 cli에서 disk를 magazine이라고 지칭한다.
(3PAR 개발초기에 PTL의 Magazine처럼 Disk Magazine 형식을 사용했고 디스크 교체시 이 Magazine 전체를 분리해야 됐음.
현재 개별 disk slot으로 변경뒤에도 예전 명령어 들이 남아 있음.)

** 3PAR Storage에서 디스크 교체준비가 완료되었는지 확인이 필요하다. 최신 FW의 경우는 disk fail시 자동으로 servicemag이 실행되지만
과거버전의 경우 자동으로 실행되지 않는 경우가 있다 이때 수동으로 실행이 필요함.

  1. Fail 및 degraded 디스크 확인
  2. servicemag 상태 확인, 미실행시 수동실행
  3. (생략가능) Disk space 사용량을 확인하여 servicemag 정상적으로 작동되었는지 double check
  4. 물리적인 디스크 교체
  5. servicemag 작동확인
  6. 작업종료후 정상 확인

1. Fail 및 degraded 디스크 확인

cli% showpd -failed -degraded

-> 장애디스크 확인, PDID, Cage:Slot:0 포지션 확인

                           -Size(MB)– —-Ports—-
Id CagePos Type RPM State   Total Free A     B     Cap(GB)
46 2:8:0? FC   10 failed 417792   0 —– —–     450
————————————————————
1 total                  417792   0

2. servicemag 상태 확인, 미실행시 수동실행

cli% servicemag status
Cage 2, magazine 8:
The magazine was successfully brought offline by a servicemag start command.
The command completed Thu Jul 10 20:07:03 2014.
servicemag start -pdid 46 – Succeeded
-> servicemag 정상구동시 정보출력.

cli% servicemag start -pdid 46
-> 미실행시 start 옵션과 pdid를 통해 실행.

3. (생략가능) Disk space 사용량을 확인하여 servicemag 정상적으로 작동되었는지 double check

cli% showpd –space 46
Id CagePos Type -State-   Size Volume Spare Free Unavail Failed
46 2:8:0? FC   failed 417792     0                 0     0          0         417792
—————————————————————
1 total                        417792     0            0   0          0               417792
-> volume나 spare로 사용되는 공간이 없으면 정상적으로 servicemag 작동.

4. 물리적인 디스크 교체

5. servicemag 작동확인

cli% servicemag status
Cage 2, magazine 8:
The magazine is being brought online due to a servicemag resume.
The last status update was at Thu Jun 26 12:09:19 2014.
Chunklets relocated: 73 in 50 minutes and 34 seconds
Chunklets remaining: 400
Chunklets marked for moving: 400
Estimated time for relocation completion based on 41 seconds per chunklet is: 4hours, 57 minutes and 39 seconds
servicemag resume 2 8 — is in Progress

-> servicemag 처음 시작때와 마찬가지로 최신버전은 디스크 교체시 자동으로 resume되어 복구시작.
과거버전은 수동으로 resume 명령어 실행 필요.
in progress로 확인 가능하면 정상 작동중. showtask나 servicemag status 로 진행사항 확인가능.

cli% servicemag resume 2 8
-> resume 뒤 Cage NO, Disk Slot NO를 넣어서 resume 수동 시작 명령(showpd 또는 servicemag status 참조

6. 작업종료후 정상 확인

cli% showpd

** servicemag가 진행중일때 동일한 cage 포지션에 서로다른 PDID로 디스크가 2개 보임(기존 failed 디스크, 새로 교체한 디스크)
마찬가지로 진행중일때 신규디스크가 degraded로 보일 수 있음. servicemag 완료후 normal로 변경됨.

번외.

** servicemag작업은 failed된 디스크에 쓰여져있는 데이터 청클릿을 다른 여려디스크의 spare 청클릿으로 이동하여 새 디스크로 옮기는 과정
즉 정상적으로 servicemag된다면 신규디스크에 쓸때는 RAID된 데이터의 패러티 재구성은 일어나지 않음.
** resume fail시 교체된 새 디스크 불량 또는 슬롯불량 등을 의심해봐야됨.
showpd -s <pdid> 디스크 링크 확인, disk cage에서 loop 복구명령어는 controlmag onloop cage0 9 명령.
Controller 에서 sas포트 리셋 명령 controlport rst 0:0:1
주로 admitpd나 upgradepd 명령을 통해 해당 디스크의 재인식/체크만 다시 하기를 권장.

** 특정디스크의 제거.
스토리지에 제거할 디스크 이상의 여유공간 필요.

cli% setpd ldalloc off <PDID>    ##pd 상태 normal–>degraded로 변경

cli% movepdtospare -perm <PDID>          ##used chunklets–>unused로 빠짐

cli% showpdch -spr <PDID>                    ##disk spare 확인(remove전 수시로 확인)

cli% removespare <PDID>:a                      ##unused로 전부 빠지면 spare(150예상) 제거

cli% dismisspd <PDID>                           ##degraded 상태에서 id쪽 – 이나 new로 바뀜

** 정상적으로 servicemag 작동, 디스크 상태 normal으로 되었으나 showpd -c로 확인시 spare 청클릿 할당이 전혀되지 않은 경우.
spare에 free가 할당되어야 하나 안 되는 경우가 있음.(아마 특정 버전fw의 문제가 아닐까 의심)
cli% admitpd 명령어로 재인식 시키면 servicemag나 다른 작동없이 정상적으로 spare 확인됨.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다