Phòng bệnh hơn chữa bệnh – giảm thiểu nguy cơ mất dữ liệu với 2 bước đơn giản

Lỗi ổ cứng có thể không bị phát hiện và có thể xảy ra bất cứ lúc nào, và chúng sẽ dẫn đến tình trạng giảm hiệu năng volume hoặc ảnh hưởng đến dữ liệu. Sự cố ít gặp nếu lỗi ổ cứng dẫn đến volume bị degrad ( xuống cấp), bạn chỉ cần rebuild lại RAID bằng cách tìm ổ đĩa bị hỏng và thay thế bằng ổ đĩa mới.Tuy nhiên, nó là một mối đe dọa lớn hơn khi gặp. Nếu bạn không có kế hoạch dự phòng hoặc giải pháp DR( Disaster Recovery), có khả năng là bạn sẽ gặp phải sự cố mất dữ liệu thảm khốc.

Vậy chúng ta có thể làm điều gì khi truy xuất ổ cứng thất bại ?

Có, và có hai phương án dự phòng mà chúng tôi có thể thực hiện để giảm thiểu khả năng mất dữ liệu do lỗi ổ cứng. Chạy kiểm tra S.M.A.R.T và thiết lập kích hoạt thông báo .

Đầu tiên, thực hiện một S.M.A.R.T kiểm tra thường xuyên để theo dõi tình trạng sức khỏe đĩa cứng của bạn và hoạt động tức thì khi cần thiết. S.M.A.R.T là từ viết tắt của Self-Monitoring ( tự giám sát), Analysis and Reporting Technology ( phân tích và báo cáo công nghệ), đó là một hệ thống giám sát được sử dụng để đánh giá độ tin cậy của ổ đĩa cứng và cung cấp thông tin về trạng thái hiện tại của các ổ đĩa. S.M.A.R.T kiểm tra thuộc tính bằng cách dùng một vài thông số để xem ổ đĩa cứng có phát sinh vấn đề không. Kết quả như là chỉ số về tuổi thọ còn lại của ổ đĩa cứng.

Chú ý đến ba đều sau đây S.M.A.R.T ( 1 thuộc tính) có liên quan đến các bad sector: Reallocated Sector Count (ID 5), Reallocated Event Count (ID 196), và Current Pending Sector Count (ID 197). Một bad sector là một cụm dữ liệu không đọc được gây ra bởi hao mòn, quá nóng, va chạm, lỗi hệ thống tập tin, …vv. Khi phát hiện một sector bị suy yếu, nó sẽ chuyển hướng đến một space – một spare sector. Quá trình tái phân bổ này được gọi là “remapping.” Lưu ý, mặc dù các hoạt động remapping (ánh xạ) tăng lên sẽ làm chậm truy xuất ổ đĩa và có thể thay phiên làm việc đến hết ổ đĩa của bạn.

*Ba thuộc tính S.M.A.R.T.

ID ATTRIBUTE DESCRIPTION
5 Reallocated Sector Count số lượng sector di dời với giá trị thô đại diện cho số lượng các sector được ánh xạ lại. giá trị cao cho thấy xác suất thất bại ổ đĩa sắp xảy ra cao hơn
196 Reallocated Event Count nó chỉ ra số lượng các hoạt động remap lại với giá trị thô biểu thị tổng số lần thử thành công và không thành công để chuyển dữ liệu từ các khu vực xấu sang các khu vực phụ
197 Current Pending Sector Count đó là số lượng các sectors nghi ngờ bị lỗi hiện không thể đọc và remap vào khu vực riêng, giá trị thô đang dao động vì giá trị sẽ giảm khi chúng được đọc và remap lại thành công.

Đó là ý tưởng để các thuộc tính trên cho giá trị thấp, vì các giá trị này có thể được sử dụng làm chuẩn để phát hiện các lỗi ổ đĩa chập chờn. Cả Google và các số liệu thống kê của chúng tôi cho thấy các thuộc tính này có mối tương quan cao với khả năng hỏng ổ đĩa cao. Các ổ đĩa bị bad sectors có khả năng truy xuất ổ đĩa không thành công gấp 10 lần so với các ổ đĩa không bị bad sector.

Thêm một lớp phòng ngừa

Khác với việc chạy S.M.A.R.T. kiểm tra thường xuyên, một điều khác mà bạn có thể làm trên NAS Synology của mình là cấu hình cài đặt thông báo trong “Internal Storage” dưới tab Advanced  trong Control Panel. Cụ thể là chọn 7 sự kiện* và thực hiện hành động cần thiết khi nhận được tin nhắn thông báo được kích hoạt bởi chúng. Hãy bắt đầu với ba thuật ngữ lỗi phổ biến: Lỗi ICRCIDNFUNC. Lỗi ICRC là sự cố giao tiếp xảy ra khi dữ liệu được truyền giữa máy chủ và ổ cứng, trong khi lỗi IDNF xảy ra khi ổ đĩa không thể đọc dữ liệu được tại sectors bị hỏng. Lỗi UNC ngụ ý rằng dữ liệu mà ổ cứng cố đọc bị hỏng và không thể sửa được bằng ECC (Error correction code) mã sửa lỗi. Sau đây là các sự kiện liên quan đến các lỗi này:
Lưu ý: 4 sự kiện bên dưới không bao gồm cài đặt thông báo mặc định. Hệ thống khuyên bạn nên đánh dấu vào checkbox và chọn phương tiện thông báo khi gặp sự cố.

1. Thông báo kết nối lại ổ đĩa (ICRC error)

2. Thông báo nhận dạng lại ổ đĩa (IDNF error)

3. Thông báo kết nối lại khi NAS Synology khởi động

4. Thông báo ổ đĩa đọc bất thường (UNC error)

Khi bạn nhận được thông báo với bất kỳ lỗi nào ở trên, nó là một dấu hiệu cảnh báo sớm về một ổ đĩa bị lỗi. Nếu vấn đề vẫn tiếp tục, nó có thể gợi ý rằng ổ đĩa không hoạt động đúng cách. Chúng tôi thực sự khuyên bạn nên sao lưu dữ liệu của mình và thay thế ổ đĩa hiện tại. Khác với các cảnh báo nêu trên, có ba sự kiện khác mà bạn cũng nên chú ý.

5. Bad sectors trên ổ đĩa

6. Drive I/O error

7. Tuổi thọ SSD (Cảnh báo tuổi thọ ổ cứng chỉ hỗ trợ cho SSD)

Vì các bad sectors sẽ tăng dần dẫn đến mất dữ liệu trong dài hạn, bạn sẽ nhận được thông báo khi các bad sector được phát hiện đang tăng. CácBad sector cũng có thể dẫn đến lỗi drive I/O errors. Tuy nhiên, ổ đĩa của bạn có thể vẫn hoạt động bình thường sau vài lần thử lại. Nếu lỗi này tiếp tục xảy ra, vui lòng sao lưu dữ liệu của bạn và kiểm tra trạng thái ổ cứng bằng cách tiến hành chạy S.M.A.R.T. Bạn có thể tham khảo Danh sách tương thích sản phẩm Synology để kiểm tra tuổi thọ dự kiến ​​của SDD của bạn. Cân nhắc thay thế ổ đĩa của bạn bằng ổ đĩa khỏe khi bạn nhận được cảnh báo, vì đó có thể là dấu hiệu của lỗi ổ đĩa sắp xảy ra.

An toàn hơn

Nói chung, nó chỉ là vấn đề thời gian trước khi một ổ đĩa bị lỗi, nhưng chúng ta có thể thực hiện các biện pháp dự phòng đơn giản trước khi chúng dẫn đến mất dữ liệu. Hãy ưu tiên hành động khi nhận được cảnh báo ổ cứng, vì bỏ qua các dấu hiệu cảnh báo này có thể khiến bạn phải trả giá lớn khi thảm họa xảy ra. Bạn có thể chủ động bằng cách thực hiện chẩn đoán S.M.A.R.T. kiểm tra thường xuyên để biết rõ hơn về tình trạng hiện tại ổ đĩa của bạn.

Ngoài các biện pháp dự phòng này, chúng tôi cũng cần chuẩn bị cho tình huống xấu nhất bằng cách thường xuyên lên lịch các tác vụ sao lưu trong trường hợp hỏng ổ đĩa bất ngờ. Hãy chuẩn bị tốt và bạn có thể giảm thiểu khả năng mất dữ liệu.

* Trong các versions DSM trước khi phát hành 6.2.2 ,tên các sự kiện này là disk thông báo kết nối lại (ICRC error), disk thông báo nhận dạng lại (IDNF error), disk thông báo kết nối lại khi khởi động lên, disk thông báo đọc bất thường (UNC error), disk có bad sector vượt quá giới hạn, disk I/O error, và thông báo thời gian sống của disk, tương đối.