2017年5月30日 星期二

[經驗分享]FreeNAS Rebuild 速度以及故障影響



如圖所示,磁碟陣列重建是所有系統管理員的惡夢,硬碟越多、容量越大、資料越滿越是可怕。

不過,我所使用的 FreeNAS 基於 ZFS 檔案系統,在這方面可以說是勝於其它磁碟陣列系統,最近正好有一台機器硬碟故障進行更換,利用此機會將數據提供各位朋友參考。


圖片出處



儲存情況


這台儲存伺服器的配置如下:

  • 採用 ZFS 檔案系統
  • 總容量 24TB,已使用 12.2TB
  • 硬碟數 x 12,每顆 3TB,轉速 7200rpm,介面 SATA
  • 採 RAIDZ2 + RAIDZ2 組成,每組 RAIDZ2 有 6 顆硬碟



磁碟配置情況




處理經過


端午連假時,發現其中一顆硬碟故障,發生 Faulted 後,磁碟陣列進入 Degraded 模式。


磁碟發生故障




確認問題後,利用空 Bay 裝上新硬碟並 Replace 替換之,接著系統便開始進行 Rebuild (Resilver) 程序,這就是一般磁碟陣列耗時最久,也最吃系統效能的階段。

不過,ZFS 在這方面有一些獨到的設計,可以只重建有使用到的資料部份,並搭配相關的演算法有效降低效能損耗與時間長度。



磁碟重建進度


本次重建完成大約 11 小時(時間 11:30 開始,於 22:30 左右結束)

特別注意,這台 FreeNAS 同時也在線上提供給 VM 服務中,並非離線專心 Resilver。





其它情況


本次磁碟發生問題後,也察覺到兩個情況,需特別注意。

  • 當磁區出問題時,排程定期快照功能將停止運作
  • 同時,因為排程快照停止運作,複寫工作也同步停止
  • 直到 Rebuild (Resilver) 完成後才恢復正常運作


另外,剛把新的硬碟插上空 Bay 時,正要做 Replace 之前發生詭異的 FreeNAS WebUI 死掉,經過 Reboot 才恢復。

不過 WebUI 死掉時,其它 ZFS、NFS、SSH 等所有服務都還是正常的。


FreeNAS WebUI 故障




結論


FreeNAS 及 ZFS 是好物,走過路過不要錯過!