본문 바로가기

System Engineer

RAID Rebuild error


구 성 
HP MSA60 + P800 (R10)

상 태 
dmesg 상에 file system I/O error 등이 발생
hpacucli ctrl slot=2 show config 명령으로 상태 확인 - Ready for Recovery

원 인 
디스크 bad sector 발생으로 인한 에러

조 치 
이 경우 시스템을 reboot 할 경우 controller 에서 해당 disk 를 초기화를 통해 rebuild 해서 bad sector를 처리하거나, disk 를 아예 fail 시킬 수도 있다.
reboot 할 때 아래와 같은 메세지를 볼 수 있다.

Unrecoverable Media Errors Detected on Drives during previous Rebuild or Background Surface Analysys (ARM) scan.....

rebuild 가 되고 있거나, fail 된 디스크를 교체하여 상태가 ok 가 된다면 특별한 문제는 없는 것 같다.


RAID redunduncy 구조상, 단일 디스크의 bad sector 에러는 자체 복구가 가능하다.

그러나 여러 디스크에 걸쳐져  있는 하나의 stripe 그룹 안에서,
2개 디스크 이상에서 동시에 bad sector 가 발생한다면, 그 stripe 그룹은 복구될 수 가 없다. (Unrecoverable Sector/Media Error)

-> 결국 그 stripe 상에 파일이 기록되어 있었다면, 백업에서 복구할 수 밖에 없다. (덮어쓰기)
-> 운이 좋아, 그 위치에 Data 가 없다면 (또는 그렇다고 판단되면), 위 메세지는 무시하거나 clear 하면 될 것 같다.

* 파일의 이상 여부는 full backup 이나, full copy 해 보면 확인이 될 듯 하며,
error block 의 LBA 값을 가지고, 그 위치에 기록된 파일이 있는지 찾아 볼 수도 있겠다.

* 단순하게, RAID 에서 구성된 LUN (VD 등 뭐라 부르던)을 그냥 단일 디스크라고 생각한다면,
LUN 에서 발생한 Unrecoverable Sector/Media Error 는 단일 디스크에서 발생한 bad sector 와 같다고 보면 좀 더 이해하기 쉬운 듯 하다.


'System Engineer' 카테고리의 다른 글

Windows Server 부팅 과정  (0) 2018.02.08
Apache HTTP Server  (0) 2018.01.27
인프라 디자인 패턴  (0) 2018.01.27
RAID Rebuild Fail  (0) 2011.04.05
VMware Player 3.1 네트워크 설정 프로그램 - vmnetcfg.exe  (0) 2010.10.27