1. Vì sao “có backup” không có nghĩa là “có thể phục hồi”?
Trong rất nhiều sự cố thực tế:
File backup tồn tại
Log báo thành công
Dung lượng có vẻ hợp lý
Nhưng khi cần phục hồi:
File lỗi
Thiếu dữ liệu
Không restore được
Không ai biết quy trình
Backup chỉ có giá trị khi restore thành công.
📌 Nếu chưa test restore, backup chỉ là giả định.
2. Test restore là gì và không phải là gì?
2.1. Test restore là:
Thực sự phục hồi dữ liệu
Trên môi trường tách biệt
Theo đúng quy trình
2.2. Test restore không phải là:
Mở file backup xem có tồn tại
Check log “success”
Tin rằng “lần trước restore được”
📌 Restore phải được thực hiện thật, không suy đoán.
3. Mục tiêu của test restore định kỳ
Test restore nhằm:
Xác nhận backup dùng được
Kiểm tra quy trình phục hồi
Đào tạo con người
Phát hiện lỗi ngầm
📌 Test restore không chỉ kiểm tra dữ liệu, mà kiểm tra tổ chức.
4. Những gì cần test restore?
4.1. Database
Restore đầy đủ
Restore chọn lọc
Kiểm tra logic nghiệp vụ
4.2. File và dữ liệu người dùng
Đúng file
Đúng permission
Đúng ownership
4.3. Ứng dụng
Chạy được
Đúng hành vi
Đúng phân quyền
📌 Restore thành công nhưng ứng dụng lỗi = test thất bại.
5. Môi trường test restore
Test restore phải:
Tách biệt production
Không ảnh hưởng vận hành
Có thể xóa sau test
📌 Không test restore trực tiếp trên production.
6. Tần suất test restore khuyến nghị
| Mức độ | Tần suất | Nội dung |
|---|---|---|
| Nhẹ | Hàng tháng | File, DB nhỏ |
| Trung | Hàng quý | Hệ thống chính |
| Đầy đủ | Hàng năm | DR scenario |
📌 Tần suất phụ thuộc mức độ rủi ro, không phụ thuộc công cụ.
7. Test restore gắn với RTO
Test restore giúp trả lời:
Restore mất bao lâu?
Có đạt RTO không?
Điểm nghẽn ở đâu?
📌 Không test restore = không biết RTO thật.
8. Quy trình test restore chuẩn (tóm tắt)
Chọn backup cần test
Chuẩn bị môi trường
Restore theo SOP
Kiểm tra dữ liệu
Kiểm tra ứng dụng
Ghi nhận kết quả
Cải tiến quy trình
📌 Test restore phải có biên bản.
9. Ghi nhận và cải tiến sau test
Sau mỗi lần test cần:
Ghi lại thời gian
Ghi lại lỗi
Cập nhật SOP
Điều chỉnh lịch / công cụ
📌 Test restore không nhằm “chứng minh đã làm”, mà nhằm tìm lỗi.
10. Những lỗi thường phát hiện khi test restore
Thiếu key mã hóa
Thiếu user / permission
Script backup bỏ sót dữ liệu
Restore quá chậm
Quy trình không rõ ràng
📌 Những lỗi này chỉ lộ ra khi test thật.
11. Sai lầm phổ biến
Không bao giờ test restore
Chỉ test một lần duy nhất
Test nhưng không ghi nhận
Không sửa sau khi test
12. Checklist test restore
BẮT BUỘC
Test dữ liệu thật
Test ứng dụng
Test permission
Ghi nhận kết quả
RẤT NÊN
Test DR scenario
Đo RTO
Đào tạo nhân sự
13. Liên hệ với hệ thống thực tế
Trong hệ thống:
Website người bệnh
Webapp nội bộ
Database nghiệp vụ
Test restore giúp:
Tránh hoảng loạn khi sự cố thật xảy ra
Giảm downtime
Bảo vệ uy tín tổ chức
Backup không được kiểm tra là backup chưa hoàn thành.
Chỉ khi:
Backup chạy đều
Restore được test
Quy trình rõ ràng
thì hệ thống mới thực sự có khả năng phục hồi.
- Đăng nhập để gửi ý kiến