Chúng ta có thể bắt đầu crawl ở 1 máy tính có sẵn, dùng chung với hệ thống khác: laptop, dev, web, AI, ... Nhưng do nhu cầu mở rộng, chuyên nghiệp. Hoặc đơn giản việc crawl thiếu ổn định cũng như gây mất ổn định cho hệ thống khác mà nó đang "ở ké" nên chúng ta cần chuyển nó ra ở riêng.
Một số nguyên tắc:
- Chưa xóa dữ liệu đích nhé. Chỉ xóa khi bạn đã chắc chắn live tất cả công việc trên Crawl-Server
Bước 1. Cài đặt máy chủ Crawl
- Tham khảo bài viết:
Bước 2. Dừng crawl lại
Gồm cả lệnh thủ công hay tự động qua cron
Bước 3. Copy toàn bộ folder chứa code/data đã crawl về máy Crawl
Tham khảo: Copy local - server, server - server
Bước 4. Check kỹ trạng thái crawl của từng dự án chuyển qua
- Check log
- Check files tải về/data thu thập
- Check lại code: đặc biệt các đường dẫn, tên file vào ra.
Bước 5. Xóa môi trường cũ
Vào thư mục dự án đang làm việc
cd /path/to/du-an-1
Xóa môi trường cũ
rm -rf myenv
Bước 6. Tạo lại môi trường mới
Tạo môi trường mới:
python3 -m venv myenv
Kích hoạt môi trường (đi vào môi trường):
source myenv/bin/activate
Cập nhật pip và công cụ build
pip install --upgrade pip wheel setuptools
--> Kết quả ví dụ: Successfully installed pip-25.2 setuptools-80.9.0 wheel-0.45.1
Bước 7. Cài đặt lại các gói cần cho project hiện tại
Vẫn chạy trong môi trường myenv
pip install requests beautifulsoup4 pandas lxml tqdm fake-useragent
--> Kết quả: Successfully installed beautifulsoup4-4.14.2 certifi-2025.10.5 charset_normalizer-3.4.4 fake-useragent-2.2.0 idna-3.11 lxml-6.0.2 numpy-2.2.6 pandas-2.3.3 python-dateutil-2.9.0.post0 pytz-2025.2 requests-2.32.5 six-1.17.0 soupsieve-2.8 tqdm-4.67.1 typing-extensions-4.15.0 tzdata-2025.2 urllib3-2.5.0
Kiểm tra hoạt động:
python -c "import requests, bs4, pandas; print('Crawl env OK')"
--> Kết quả: Crawl env OK
Bước 8. Chuẩn bị chạy thử cript từ máy cũ
Rất quan trọng: hãy di chuyển, đổi tên toàn bộ files/folders cũ. Chỉ dữ lại script muốn chạy (Có thể tạo phiên bản mới script muốn chạy này).
Bước 9. Chạy thật
- Để các files, folders như trên máy cũ.
- Chạy thật thủ công
- Cài đặt cron tự động
- Đăng nhập để gửi ý kiến