1. Mục tiêu của các kịch bản sự cố
Các kịch bản này nhằm:
Chuẩn hóa phản ứng khi sự cố xảy ra
Tránh xử lý cảm tính, làm tình hình xấu hơn
Giảm thời gian gián đoạn dịch vụ
Bảo vệ dữ liệu và bằng chứng sự cố
Nguyên tắc chung:
Không xử lý trực tiếp trên hệ thống khi chưa xác định đúng loại sự cố.
2. Phân loại sự cố trong hệ thống
Hệ thống được phân thành 05 nhóm sự cố chính:
Mất 1 máy chủ tại CMC
Mất BV1 – máy chủ chính
PRX lỗi hoặc mất kết nối
Nhiễm mã độc / ransomware
Mất toàn bộ site chính (thảm họa)
Mỗi nhóm có chiến lược khôi phục khác nhau.
3. Kịch bản 1: Mất 1 máy chủ tại CMC
3.1. Trường hợp A – CMC1C (máy chạy code) bị lỗi
Triệu chứng:
Website người bệnh không truy cập được
Database vẫn hoạt động
Cách xử lý:
Cách ly CMC1C khỏi Internet
Dựng CMC1C mới
Restore:
Code
Cấu hình
Script
Kết nối lại CMC2D
Test dịch vụ
Nguồn restore:
BV hoặc Desktop
RTO dự kiến: 1–2 giờ
3.2. Trường hợp B – CMC2D (database) bị lỗi
Triệu chứng:
Website lên nhưng lỗi DB
Query thất bại
Cách xử lý:
Ngưng dịch vụ ghi
Dựng DB server mới
Restore DB từ:
BV (ưu tiên)
Desktop
Kết nối lại CMC1C
Test dữ liệu
RPO: theo thời điểm dump gần nhất
RTO: 1–2 giờ
4. Kịch bản 2: Mất BV1 – máy chủ chính
4.1. Triệu chứng
Nhân viên không truy cập được hệ thống
BV1 không phản hồi
4.2. Cách xử lý
Xác nhận BV1 lỗi thật sự
Ngắt BV1 khỏi mạng
Thực hiện failover:
Chuyển routing tại PRX sang BV2
Kích hoạt dịch vụ trên BV2
Kiểm tra hệ thống
Nguồn dữ liệu:
Replication từ BV1 → BV2
RTO: 15–30 phút
5. Kịch bản 3: PRX lỗi hoặc mất kết nối
5.1. Triệu chứng
BV1/BV2 vẫn chạy
Không truy cập được từ ngoài
5.2. Cách xử lý
Kiểm tra modem/router
Dựng PRX mới
Restore:
Cấu hình
SSL/TLS
Kết nối lại BV1/BV2
Test routing
Nguồn restore:
Desktop hoặc BV
RTO: ≤ 1 giờ
6. Kịch bản 4: Nhiễm mã độc / ransomware
6.1. Triệu chứng
File bị mã hóa
CPU/disk bất thường
Log đáng ngờ
6.2. Nguyên tắc xử lý
Không khôi phục ngay
Không bật lại dịch vụ
Không xóa dấu vết vội
6.3. Các bước xử lý
Cách ly máy nghi nhiễm
Xác định phạm vi ảnh hưởng
Kiểm tra backup sạch trên Desktop
Dựng server mới
Restore từ backup an toàn
Đổi toàn bộ credential
Nguồn restore: Desktop (bản độc lập)
7. Kịch bản 5: Mất toàn bộ site chính (thảm họa)
7.1. Tình huống
CMC + BV đều không sử dụng được
Mất điện diện rộng, cháy nổ, thiên tai
7.2. Chiến lược khôi phục
Dựng hạ tầng mới (ở nơi khác)
Kết nối Desktop
Restore:
Database
Code
Cấu hình
Kiểm tra nghiệp vụ
Mở lại dịch vụ
Desktop lúc này:
Là nguồn dữ liệu duy nhất
Quyết định sự sống còn của hệ thống
8. Những việc KHÔNG được làm khi có sự cố
Không ghi đè backup
Không xóa backup cũ
Không rebuild vội vàng
Không failover khi chưa cô lập nguồn lỗi
9. Ghi nhận và cải tiến sau sự cố
Sau mỗi sự cố:
Lập biên bản:
Nguyên nhân
Thời gian
Dữ liệu ảnh hưởng
Cập nhật:
SOP
Backup timeline
Kịch bản DR
Tổng kết
Các kịch bản sự cố cho thấy:
Failover xử lý gián đoạn
Backup xử lý mất dữ liệu
Desktop backup là tuyến cuối
Hệ thống an toàn không phải vì không có sự cố, mà vì:
Biết chắc phải làm gì khi sự cố xảy ra.
- Đăng nhập để gửi ý kiến