** 3PAR 스토리지의 cli에서 disk를 magazine이라고 지칭한다.
(3PAR 개발초기에 PTL의 Magazine처럼 Disk Magazine 형식을 사용했고 디스크 교체시 이 Magazine 전체를 분리해야 됐음.
현재 개별 disk slot으로 변경뒤에도 예전 명령어 들이 남아 있음.)
** 3PAR Storage에서 디스크 교체준비가 완료되었는지 확인이 필요하다. 최신 FW의 경우는 disk fail시 자동으로 servicemag이 실행되지만
과거버전의 경우 자동으로 실행되지 않는 경우가 있다 이때 수동으로 실행이 필요함.
- Fail 및 degraded 디스크 확인
- servicemag 상태 확인, 미실행시 수동실행
- (생략가능) Disk space 사용량을 확인하여 servicemag 정상적으로 작동되었는지 double check
- 물리적인 디스크 교체
- servicemag 작동확인
- 작업종료후 정상 확인
1. Fail 및 degraded 디스크 확인
cli% showpd -failed -degraded
-> 장애디스크 확인, PDID, Cage:Slot:0 포지션 확인
-Size(MB)– —-Ports—-
Id CagePos Type RPM State Total Free A B Cap(GB)
46 2:8:0? FC 10 failed 417792 0 —– —– 450
————————————————————
1 total 417792 0
2. servicemag 상태 확인, 미실행시 수동실행
cli% servicemag status
Cage 2, magazine 8:
The magazine was successfully brought offline by a servicemag start command.
The command completed Thu Jul 10 20:07:03 2014.
servicemag start -pdid 46 – Succeeded
-> servicemag 정상구동시 정보출력.
cli% servicemag start -pdid 46
-> 미실행시 start 옵션과 pdid를 통해 실행.
3. (생략가능) Disk space 사용량을 확인하여 servicemag 정상적으로 작동되었는지 double check
cli% showpd –space 46
Id CagePos Type -State- Size Volume Spare Free Unavail Failed
46 2:8:0? FC failed 417792 0 0 0 0 417792
—————————————————————
1 total 417792 0 0 0 0 417792
-> volume나 spare로 사용되는 공간이 없으면 정상적으로 servicemag 작동.
4. 물리적인 디스크 교체
5. servicemag 작동확인
cli% servicemag status
Cage 2, magazine 8:
The magazine is being brought online due to a servicemag resume.
The last status update was at Thu Jun 26 12:09:19 2014.
Chunklets relocated: 73 in 50 minutes and 34 seconds
Chunklets remaining: 400
Chunklets marked for moving: 400
Estimated time for relocation completion based on 41 seconds per chunklet is: 4hours, 57 minutes and 39 seconds
servicemag resume 2 8 — is in Progress
-> servicemag 처음 시작때와 마찬가지로 최신버전은 디스크 교체시 자동으로 resume되어 복구시작.
과거버전은 수동으로 resume 명령어 실행 필요.
in progress로 확인 가능하면 정상 작동중. showtask나 servicemag status 로 진행사항 확인가능.
cli% servicemag resume 2 8
-> resume 뒤 Cage NO, Disk Slot NO를 넣어서 resume 수동 시작 명령(showpd 또는 servicemag status 참조
6. 작업종료후 정상 확인
cli% showpd
** servicemag가 진행중일때 동일한 cage 포지션에 서로다른 PDID로 디스크가 2개 보임(기존 failed 디스크, 새로 교체한 디스크)
마찬가지로 진행중일때 신규디스크가 degraded로 보일 수 있음. servicemag 완료후 normal로 변경됨.
번외.
** servicemag작업은 failed된 디스크에 쓰여져있는 데이터 청클릿을 다른 여려디스크의 spare 청클릿으로 이동하여 새 디스크로 옮기는 과정
즉 정상적으로 servicemag된다면 신규디스크에 쓸때는 RAID된 데이터의 패러티 재구성은 일어나지 않음.
** resume fail시 교체된 새 디스크 불량 또는 슬롯불량 등을 의심해봐야됨.
showpd -s <pdid> 디스크 링크 확인, disk cage에서 loop 복구명령어는 controlmag onloop cage0 9 명령.
Controller 에서 sas포트 리셋 명령 controlport rst 0:0:1
주로 admitpd나 upgradepd 명령을 통해 해당 디스크의 재인식/체크만 다시 하기를 권장.
** 특정디스크의 제거.
스토리지에 제거할 디스크 이상의 여유공간 필요.
cli% setpd ldalloc off <PDID> ##pd 상태 normal–>degraded로 변경
cli% movepdtospare -perm <PDID> ##used chunklets–>unused로 빠짐
cli% showpdch -spr <PDID> ##disk spare 확인(remove전 수시로 확인)
cli% removespare <PDID>:a ##unused로 전부 빠지면 spare(150예상) 제거
cli% dismisspd <PDID> ##degraded 상태에서 id쪽 – 이나 new로 바뀜
** 정상적으로 servicemag 작동, 디스크 상태 normal으로 되었으나 showpd -c로 확인시 spare 청클릿 할당이 전혀되지 않은 경우.
spare에 free가 할당되어야 하나 안 되는 경우가 있음.(아마 특정 버전fw의 문제가 아닐까 의심)
cli% admitpd 명령어로 재인식 시키면 servicemag나 다른 작동없이 정상적으로 spare 확인됨.