Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "CNTT" các nội dung bạn quan tâm.

Bài 41. Nguyên tắc phục hồi hệ thống

ICT

1. Phục hồi hệ thống không phải là “làm cho chạy lại”

Trong khủng hoảng, phản xạ phổ biến nhất là:

  • Dựng lại server

  • Restore dữ liệu

  • Khởi động dịch vụ càng nhanh càng tốt

Cách làm này thường dẫn đến:

  • Phục hồi sai thứ tự

  • Lãng phí thời gian

  • Làm trầm trọng thêm sự cố

Phục hồi hệ thống không phải là hành động kỹ thuật đơn lẻ,
mà là một quá trình ra quyết định dưới áp lực.

📌 Vì vậy, cần có nguyên tắc, không chỉ có công cụ.


2. Nguyên tắc 1: An toàn dữ liệu quan trọng hơn tốc độ

Trong mọi tình huống:

  • Downtime có thể chấp nhận

  • Mất dữ liệu thì không

Thà hệ thống chậm hơn một chút,
còn hơn phục hồi nhanh nhưng sai dữ liệu.

📌 Nguyên tắc này chi phối mọi quyết định phục hồi.


3. Nguyên tắc 2: Phục hồi theo giá trị nghiệp vụ, không theo kỹ thuật

Không phải mọi thành phần đều quan trọng như nhau.

Cần xác định:

  • Dịch vụ nào sống còn

  • Dữ liệu nào không thể mất

  • Thành phần nào có thể phục hồi sau

📌 Ưu tiên nghiệp vụ quyết định thứ tự phục hồi, không phải kiến trúc kỹ thuật.


4. Nguyên tắc 3: Phục hồi theo tầng (Layered Recovery)

Một hệ thống luôn có nhiều tầng:

  • Hạ tầng

  • Hệ điều hành

  • Dịch vụ nền

  • Ứng dụng

  • Dữ liệu

  • Người dùng

Phục hồi sai tầng:

  • Ứng dụng chạy nhưng không có dữ liệu

  • Dữ liệu có nhưng không truy cập được

📌 Phục hồi phải đi từ nền móng lên, không đảo ngược.


5. Nguyên tắc 4: Không phục hồi trực tiếp lên môi trường bị lỗi

Nếu chưa rõ nguyên nhân sự cố:

  • Không restore đè

  • Không ghi chồng dữ liệu

  • Không phá dấu vết

📌 Môi trường phục hồi phải tách biệt, ít nhất trong giai đoạn đầu.


6. Nguyên tắc 5: Phục hồi có điểm dừng và kiểm tra

Sau mỗi bước phục hồi cần:

  • Dừng lại

  • Kiểm tra

  • Xác nhận trạng thái

Phục hồi không có checkpoint là phục hồi mù.

📌 Kiểm tra giúp phát hiện lỗi sớm, tránh lỗi dây chuyền.


7. Nguyên tắc 6: Phục hồi theo thời điểm, không theo “bản mới nhất”

Bản backup mới nhất:

  • Chưa chắc là bản đúng

  • Có thể đã chứa lỗi logic

Cần cân nhắc:

  • Thời điểm sự cố bắt đầu

  • Thời điểm dữ liệu còn “sạch”

📌 Phục hồi đúng thời điểm quan trọng hơn phục hồi bản mới nhất.


8. Nguyên tắc 7: Phục hồi phải gắn với RPO và RTO thực tế

Trong khủng hoảng:

  • RPO/RTO trên giấy có thể không đạt được

  • Cần điều chỉnh theo tình hình

📌 Phục hồi là nghệ thuật cân bằng giữa lý tưởng và thực tế.


9. Nguyên tắc 8: Phục hồi là việc của cả tổ chức, không chỉ IT

Trong phục hồi hệ thống:

  • IT chịu trách nhiệm kỹ thuật

  • Nghiệp vụ xác nhận dữ liệu

  • Lãnh đạo quyết định ưu tiên

📌 Thiếu phối hợp → phục hồi sai mục tiêu.


10. Nguyên tắc 9: Ghi nhận và học từ mỗi lần phục hồi

Sau mỗi sự cố:

  • Ghi lại trình tự phục hồi

  • Ghi lại lỗi gặp phải

  • Cập nhật SOP và kịch bản DR

📌 Mỗi lần phục hồi là một bài kiểm tra hệ thống và con người.


11. Những sai lầm phổ biến khi phục hồi hệ thống

  • Phục hồi vội vàng

  • Không xác định thời điểm backup phù hợp

  • Restore đè dữ liệu gốc

  • Không có checkpoint

  • Không xác nhận nghiệp vụ


12. Checklist nguyên tắc phục hồi (tóm tắt)

  • Ưu tiên dữ liệu

  • Ưu tiên nghiệp vụ

  • Phục hồi theo tầng

  • Tách môi trường

  • Có checkpoint

  • Phục hồi theo thời điểm

  • Gắn với RPO/RTO

  • Có phối hợp liên phòng ban


 

Phục hồi hệ thống không phải là chạy đua với thời gian,
mà là kiểm soát rủi ro trong điều kiện xấu nhất.

Một hệ thống trưởng thành:

  • Không chỉ có backup

  • Mà có nguyên tắc phục hồi rõ ràng

  • Giúp tổ chức bình tĩnh và chủ động khi khủng hoảng xảy ra