Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "CNTT" các nội dung bạn quan tâm.

Bài 40. Kiểm tra backup và test restore định kỳ

ICT

1. Vì sao “có backup” không có nghĩa là “có thể phục hồi”?

Trong rất nhiều sự cố thực tế:

  • File backup tồn tại

  • Log báo thành công

  • Dung lượng có vẻ hợp lý

Nhưng khi cần phục hồi:

  • File lỗi

  • Thiếu dữ liệu

  • Không restore được

  • Không ai biết quy trình

Backup chỉ có giá trị khi restore thành công.

📌 Nếu chưa test restore, backup chỉ là giả định.


2. Test restore là gì và không phải là gì?

2.1. Test restore là:

  • Thực sự phục hồi dữ liệu

  • Trên môi trường tách biệt

  • Theo đúng quy trình

2.2. Test restore không phải là:

  • Mở file backup xem có tồn tại

  • Check log “success”

  • Tin rằng “lần trước restore được”

📌 Restore phải được thực hiện thật, không suy đoán.


3. Mục tiêu của test restore định kỳ

Test restore nhằm:

  • Xác nhận backup dùng được

  • Kiểm tra quy trình phục hồi

  • Đào tạo con người

  • Phát hiện lỗi ngầm

📌 Test restore không chỉ kiểm tra dữ liệu, mà kiểm tra tổ chức.


4. Những gì cần test restore?

4.1. Database

  • Restore đầy đủ

  • Restore chọn lọc

  • Kiểm tra logic nghiệp vụ


4.2. File và dữ liệu người dùng

  • Đúng file

  • Đúng permission

  • Đúng ownership


4.3. Ứng dụng

  • Chạy được

  • Đúng hành vi

  • Đúng phân quyền

📌 Restore thành công nhưng ứng dụng lỗi = test thất bại.


5. Môi trường test restore

Test restore phải:

  • Tách biệt production

  • Không ảnh hưởng vận hành

  • Có thể xóa sau test

📌 Không test restore trực tiếp trên production.


6. Tần suất test restore khuyến nghị

Mức độTần suấtNội dung
NhẹHàng thángFile, DB nhỏ
TrungHàng quýHệ thống chính
Đầy đủHàng nămDR scenario

📌 Tần suất phụ thuộc mức độ rủi ro, không phụ thuộc công cụ.


7. Test restore gắn với RTO

Test restore giúp trả lời:

  • Restore mất bao lâu?

  • Có đạt RTO không?

  • Điểm nghẽn ở đâu?

📌 Không test restore = không biết RTO thật.


8. Quy trình test restore chuẩn (tóm tắt)

  1. Chọn backup cần test

  2. Chuẩn bị môi trường

  3. Restore theo SOP

  4. Kiểm tra dữ liệu

  5. Kiểm tra ứng dụng

  6. Ghi nhận kết quả

  7. Cải tiến quy trình

📌 Test restore phải có biên bản.


9. Ghi nhận và cải tiến sau test

Sau mỗi lần test cần:

  • Ghi lại thời gian

  • Ghi lại lỗi

  • Cập nhật SOP

  • Điều chỉnh lịch / công cụ

📌 Test restore không nhằm “chứng minh đã làm”, mà nhằm tìm lỗi.


10. Những lỗi thường phát hiện khi test restore

  • Thiếu key mã hóa

  • Thiếu user / permission

  • Script backup bỏ sót dữ liệu

  • Restore quá chậm

  • Quy trình không rõ ràng

📌 Những lỗi này chỉ lộ ra khi test thật.


11. Sai lầm phổ biến

  • Không bao giờ test restore

  • Chỉ test một lần duy nhất

  • Test nhưng không ghi nhận

  • Không sửa sau khi test


12. Checklist test restore

BẮT BUỘC

  • Test dữ liệu thật

  • Test ứng dụng

  • Test permission

  • Ghi nhận kết quả

RẤT NÊN

  • Test DR scenario

  • Đo RTO

  • Đào tạo nhân sự


13. Liên hệ với hệ thống thực tế

Trong hệ thống:

  • Website người bệnh

  • Webapp nội bộ

  • Database nghiệp vụ

Test restore giúp:

  • Tránh hoảng loạn khi sự cố thật xảy ra

  • Giảm downtime

  • Bảo vệ uy tín tổ chức


 

Backup không được kiểm tra là backup chưa hoàn thành.

Chỉ khi:

  • Backup chạy đều

  • Restore được test

  • Quy trình rõ ràng

thì hệ thống mới thực sự có khả năng phục hồi.