Trong môi trường máy chủ (Linux server), việc sao lưu, di chuyển hoặc lưu trữ các thư mục có dung lượng vài trăm GB (backup website, dữ liệu bệnh viện, PACS, log, archive…) là nhu cầu thường xuyên. Công cụ tar là lựa chọn chuẩn mực vì ổn định, hiệu quả và kiểm soát tốt.
Bài viết này trình bày đúng cách dùng tar để nén – chia nhỏ – ghép – giải nén dữ liệu dung lượng lớn một cách an toàn.
1. Vì sao nên dùng tar cho dữ liệu rất lớn?
So với zip hoặc các công cụ đồ họa, tar có các ưu điểm:
Hoạt động tốt với file/folder rất lớn (100–500GB+)
Giữ nguyên cấu trúc thư mục, permission, owner
Kết hợp linh hoạt với
gzip,zstd,xzDễ chia nhỏ file để truyền qua mạng
Phù hợp với server không có GUI
👉 tar gần như là chuẩn công nghiệp cho backup và migration trên Linux.
2. Nén folder dung lượng lớn bằng tar
2.1. Nén cơ bản (không chia nhỏ)
Giải thích:
-c: create (tạo archive)-z: gzip compression-f: chỉ định file output
⚠️ Không khuyến nghị khi file > 50–100GB vì:
Khó truyền
Dễ lỗi khi mạng rớt
Khó resume
3. Nén và chia nhỏ file tar (khuyến nghị cho vài trăm GB)
3.1. Nén + chia nhỏ 5GB mỗi file
Kết quả:
Ưu điểm:
Dễ rsync / scp
Resume tốt
Phù hợp backup dài hạn
📌 Đây là cách chuẩn khi backup dữ liệu lớn trên server.
4. Truyền dữ liệu sang máy khác (gợi ý)
Hoặc chạy trong tmux để tránh mất kết nối SSH. Sử dụng tmux rất quan trọng khi tiến trình cần thời gian lâu.
Tham khảo Hướng dẫn sử dụng tmux trên Linux (Quản trị server không sợ mất SSH)
5. Ghép lại các file tar đã chia nhỏ
Sau khi copy đầy đủ các file .part_*:
⏳ Lệnh này mất thời gian, không hiện progress.
Kiểm tra file tar có hợp lệ không (rất quan trọng)
Không lỗi → OK
Có lỗi → không nên giải nén, cần xử lý lại file nguồn
6. Giải nén folder dung lượng lớn
6.1. Giải nén tại thư mục hiện tại
6.2. Giải nén vào thư mục chỉ định
7. Giải nén an toàn cho dữ liệu rất lớn
7.1. Chạy trong tmux (khuyến nghị)
Thoát tmux:
8. Giữ nguyên owner và permission (quan trọng với web/server)
Nếu giải nén với quyền root:
9. Xóa file trung gian sau khi hoàn tất
⚠️ Chỉ xóa khi đã kiểm tra dữ liệu OK
10. Một số lưu ý quan trọng khi làm việc với vài trăm GB
Luôn kiểm tra disk trống trước:
Tránh chạy trên partition gần đầy
Không giải nén trên filesystem chậm (NFS yếu)
Ưu tiên chạy ngoài giờ cao điểm
Với dữ liệu cực lớn (>1TB): cân nhắc
zstdthay gzip
Kết luận
tar không chỉ là công cụ nén đơn thuần mà là xương sống của backup và migration trên Linux.
Khi làm việc với dữ liệu vài trăm GB, quy trình chuẩn là:
tar → split → rsync → cat → tar -x
Áp dụng đúng quy trình giúp:
An toàn dữ liệu
Dễ phục hồi
Tránh rủi ro gián đoạn hệ thống
- Đăng nhập để gửi ý kiến