본문 바로가기

System Engineer

RAID Rebuild error


구 성 
HP MSA60 + P800 (R10)

상 태 
dmesg 상에 file system I/O error 등이 발생
hpacucli ctrl slot=2 show config 명령으로 상태 확인 - Ready for Recovery

원 인 
디스크 bad sector 발생으로 인한 에러

조 치 
이 경우 시스템을 reboot 할 경우 controller 에서 해당 disk 를 초기화를 통해 rebuild 해서 bad sector를 처리하거나, disk 를 아예 fail 시킬 수도 있다.
reboot 할 때 아래와 같은 메세지를 볼 수 있다.

Unrecoverable Media Errors Detected on Drives during previous Rebuild or Background Surface Analysys (ARM) scan.....

rebuild 가 되고 있거나, fail 된 디스크를 교체하여 상태가 ok 가 된다면 특별한 문제는 없는 것 같다.


RAID redunduncy 구조상, 단일 디스크의 bad sector 에러는 자체 복구가 가능하다.

그러나 여러 디스크에 걸쳐져  있는 하나의 stripe 그룹 안에서,
2개 디스크 이상에서 동시에 bad sector 가 발생한다면, 그 stripe 그룹은 복구될 수 가 없다. (Unrecoverable Sector/Media Error)

-> 결국 그 stripe 상에 파일이 기록되어 있었다면, 백업에서 복구할 수 밖에 없다. (덮어쓰기)
-> 운이 좋아, 그 위치에 Data 가 없다면 (또는 그렇다고 판단되면), 위 메세지는 무시하거나 clear 하면 될 것 같다.

* 파일의 이상 여부는 full backup 이나, full copy 해 보면 확인이 될 듯 하며,
error block 의 LBA 값을 가지고, 그 위치에 기록된 파일이 있는지 찾아 볼 수도 있겠다.

* 단순하게, RAID 에서 구성된 LUN (VD 등 뭐라 부르던)을 그냥 단일 디스크라고 생각한다면,
LUN 에서 발생한 Unrecoverable Sector/Media Error 는 단일 디스크에서 발생한 bad sector 와 같다고 보면 좀 더 이해하기 쉬운 듯 하다.


'System Engineer' 카테고리의 다른 글

Windows Server 부팅 과정  (0) 2018.02.08
Apache HTTP Server  (0) 2018.01.27
인프라 디자인 패턴  (0) 2018.01.27
RAID Rebuild Fail  (0) 2011.04.05
RAID Rebuild error  (0) 2011.04.05
VMware Player 3.1 네트워크 설정 프로그램 - vmnetcfg.exe  (0) 2010.10.27