Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "CNTT" các nội dung bạn quan tâm.

10. Kịch bản sự cố và cách khôi phục

ICT

1. Mục tiêu của các kịch bản sự cố

Các kịch bản này nhằm:

  • Chuẩn hóa phản ứng khi sự cố xảy ra

  • Tránh xử lý cảm tính, làm tình hình xấu hơn

  • Giảm thời gian gián đoạn dịch vụ

  • Bảo vệ dữ liệu và bằng chứng sự cố

Nguyên tắc chung:

Không xử lý trực tiếp trên hệ thống khi chưa xác định đúng loại sự cố.


2. Phân loại sự cố trong hệ thống

Hệ thống được phân thành 05 nhóm sự cố chính:

  1. Mất 1 máy chủ tại CMC

  2. Mất BV1 – máy chủ chính

  3. PRX lỗi hoặc mất kết nối

  4. Nhiễm mã độc / ransomware

  5. Mất toàn bộ site chính (thảm họa)

Mỗi nhóm có chiến lược khôi phục khác nhau.


3. Kịch bản 1: Mất 1 máy chủ tại CMC

3.1. Trường hợp A – CMC1C (máy chạy code) bị lỗi

Triệu chứng:

  • Website người bệnh không truy cập được

  • Database vẫn hoạt động

Cách xử lý:

  1. Cách ly CMC1C khỏi Internet

  2. Dựng CMC1C mới

  3. Restore:

    • Code

    • Cấu hình

    • Script

  4. Kết nối lại CMC2D

  5. Test dịch vụ

Nguồn restore:

  • BV hoặc Desktop

RTO dự kiến: 1–2 giờ


3.2. Trường hợp B – CMC2D (database) bị lỗi

Triệu chứng:

  • Website lên nhưng lỗi DB

  • Query thất bại

Cách xử lý:

  1. Ngưng dịch vụ ghi

  2. Dựng DB server mới

  3. Restore DB từ:

    • BV (ưu tiên)

    • Desktop

  4. Kết nối lại CMC1C

  5. Test dữ liệu

RPO: theo thời điểm dump gần nhất
RTO: 1–2 giờ


4. Kịch bản 2: Mất BV1 – máy chủ chính

4.1. Triệu chứng

  • Nhân viên không truy cập được hệ thống

  • BV1 không phản hồi


4.2. Cách xử lý

  1. Xác nhận BV1 lỗi thật sự

  2. Ngắt BV1 khỏi mạng

  3. Thực hiện failover:

    • Chuyển routing tại PRX sang BV2

  4. Kích hoạt dịch vụ trên BV2

  5. Kiểm tra hệ thống

Nguồn dữ liệu:

  • Replication từ BV1 → BV2

RTO: 15–30 phút


5. Kịch bản 3: PRX lỗi hoặc mất kết nối

5.1. Triệu chứng

  • BV1/BV2 vẫn chạy

  • Không truy cập được từ ngoài


5.2. Cách xử lý

  1. Kiểm tra modem/router

  2. Dựng PRX mới

  3. Restore:

    • Cấu hình

    • SSL/TLS

  4. Kết nối lại BV1/BV2

  5. Test routing

Nguồn restore:

  • Desktop hoặc BV

RTO: ≤ 1 giờ


6. Kịch bản 4: Nhiễm mã độc / ransomware

6.1. Triệu chứng

  • File bị mã hóa

  • CPU/disk bất thường

  • Log đáng ngờ


6.2. Nguyên tắc xử lý

  • Không khôi phục ngay

  • Không bật lại dịch vụ

  • Không xóa dấu vết vội


6.3. Các bước xử lý

  1. Cách ly máy nghi nhiễm

  2. Xác định phạm vi ảnh hưởng

  3. Kiểm tra backup sạch trên Desktop

  4. Dựng server mới

  5. Restore từ backup an toàn

  6. Đổi toàn bộ credential

Nguồn restore: Desktop (bản độc lập)


7. Kịch bản 5: Mất toàn bộ site chính (thảm họa)

7.1. Tình huống

  • CMC + BV đều không sử dụng được

  • Mất điện diện rộng, cháy nổ, thiên tai


7.2. Chiến lược khôi phục

  1. Dựng hạ tầng mới (ở nơi khác)

  2. Kết nối Desktop

  3. Restore:

    • Database

    • Code

    • Cấu hình

  4. Kiểm tra nghiệp vụ

  5. Mở lại dịch vụ

Desktop lúc này:

  • Là nguồn dữ liệu duy nhất

  • Quyết định sự sống còn của hệ thống


8. Những việc KHÔNG được làm khi có sự cố

  • Không ghi đè backup

  • Không xóa backup cũ

  • Không rebuild vội vàng

  • Không failover khi chưa cô lập nguồn lỗi


9. Ghi nhận và cải tiến sau sự cố

Sau mỗi sự cố:

  • Lập biên bản:

    • Nguyên nhân

    • Thời gian

    • Dữ liệu ảnh hưởng

  • Cập nhật:

    • SOP

    • Backup timeline

    • Kịch bản DR


Tổng kết

Các kịch bản sự cố cho thấy:

  • Failover xử lý gián đoạn

  • Backup xử lý mất dữ liệu

  • Desktop backup là tuyến cuối

Hệ thống an toàn không phải vì không có sự cố, mà vì:

Biết chắc phải làm gì khi sự cố xảy ra.