Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "KSNK" các nội dung bạn quan tâm.

Chuyển công việc crawl qua máy khác

ICT

Chúng ta có thể bắt đầu crawl ở 1 máy tính có sẵn, dùng chung với hệ thống khác: laptop, dev, web, AI, ... Nhưng do nhu cầu mở rộng, chuyên nghiệp. Hoặc đơn giản việc crawl thiếu ổn định cũng như gây mất ổn định cho hệ thống khác mà nó đang "ở ké" nên chúng ta cần chuyển nó ra ở riêng.

Một số nguyên tắc:

  • Chưa xóa dữ liệu đích nhé. Chỉ xóa khi bạn đã chắc chắn live tất cả công việc trên Crawl-Server

Bước 1. Cài đặt máy chủ Crawl

  • Tham khảo bài viết: 

Bước 2. Dừng crawl lại

Gồm cả lệnh thủ công hay tự động qua cron

Bước 3. Copy toàn bộ folder chứa code/data đã crawl về máy Crawl

Tham khảo: Copy local - server, server - server

Bước 4. Check kỹ trạng thái crawl của từng dự án chuyển qua

  • Check log
  • Check files tải về/data thu thập
  • Check lại code: đặc biệt các đường dẫn, tên file vào ra.

Bước 5. Xóa môi trường cũ

Vào thư mục dự án đang làm việc

cd /path/to/du-an-1

Xóa môi trường cũ

rm -rf myenv

Bước 6. Tạo lại môi trường mới

Tạo môi trường mới:

python3 -m venv myenv

Kích hoạt môi trường (đi vào môi trường):

source myenv/bin/activate


Cập nhật pip và công cụ build

pip install --upgrade pip wheel setuptools

--> Kết quả ví dụ: Successfully installed pip-25.2 setuptools-80.9.0 wheel-0.45.1

Bước 7. Cài đặt lại các gói cần cho project hiện tại

Vẫn chạy trong môi trường myenv

pip install requests beautifulsoup4 pandas lxml tqdm fake-useragent

--> Kết quả: Successfully installed beautifulsoup4-4.14.2 certifi-2025.10.5 charset_normalizer-3.4.4 fake-useragent-2.2.0 idna-3.11 lxml-6.0.2 numpy-2.2.6 pandas-2.3.3 python-dateutil-2.9.0.post0 pytz-2025.2 requests-2.32.5 six-1.17.0 soupsieve-2.8 tqdm-4.67.1 typing-extensions-4.15.0 tzdata-2025.2 urllib3-2.5.0
Kiểm tra hoạt động:

python -c "import requests, bs4, pandas; print('Crawl env OK')"
 --> Kết quả: Crawl env OK

Bước 8. Chuẩn bị chạy thử cript từ máy cũ

Rất quan trọng: hãy di chuyển, đổi tên toàn bộ files/folders cũ. Chỉ dữ lại script muốn chạy (Có thể tạo phiên bản mới script muốn chạy này).

Bước 9. Chạy thật

  • Để các files, folders như trên máy cũ.
  • Chạy thật thủ công
  • Cài đặt cron tự động