Phần mềm
Bước 2*. Tải về từng liên kết trong danh sách sử dụng Windows
Thường cần dùng đến nếu site có sử dụng CloudFlare để chống bot (mình là bot mà). Do đó cần:
- Trình duyệt thật
- Ưu tiên windows
- Có thể cần vượt qua captcha được (cần trình duyệt mở lên thật để thao tác)
- Có một lợi thế quan trọng là không cần phải truyền cookies vào do mình dùng trình duyệt thật. Nên chỉ cần dãn cách thời gian crawl thì gần như không có cách nào mà chúng ta bị chặn.
Dưới đây hướng dẫn cả các cài đặt môi trường đến script ví dụ.
NVTOP – Trình giám sát GPU thời gian thực cho Linux và Apple Silicon
asitop – Công cụ giám sát hiệu năng Apple Silicon trực tiếp trên Terminal
Ngày giờ hệ thống không đúng
Giờ của máy chủ AI đang không đúng:
root@ai:/mnt$ date
Fri Oct 17 12:44:49 PM UTC 2025
Lúc này đang là 19:44
Lý do:
Máy đang hiển thị UTC, cần ở UTC+7 (Asia/Ho_Chi_Minh). 12:44 UTC + 7 = 19:44.
Tức là giờ hệ thống chuẩn rồi, chỉ cần đặt đúng timezone để hiển thị theo giờ Việt Nam.
# Xem tình trạng hiện tạitimedatectl
# Đặt timezone về Việt Namsudo timedatectl set-timezone Asia/Ho_Chi_Minh
- Xem thêm bài viết Ngày giờ hệ thống không đúng
- Đăng nhập để gửi ý kiến
Bước 1. Lấy danh sách bài viết lần đầu
1. Định hướng
- Thời gian: chạy duy nhất lần đầu tiên
- Thường các trang trả phí vẫn cho lấy danh sách mà không cần đăng nhập. Nên bước này không cần cookies.
- Kiểm tra có khoảng bao nhiêu trang (?page=N) để chạy từ 1 đến N
- Cách 1. Cho chạy tất cả các trang lần lượt cùng lúc: nếu danh sách sắp xếp theo thứ tự thời gian giảm dần --> cũng không sợ miss bài viết. Nhưng có nguy cơ trùng bài viết --> script cần kiểm tra có bị trùng không mới ghi vào danh sách.
- Ví dụ này đang dùng cách 1.
- Cách 1. Cho chạy tất cả các trang lần lượt cùng lúc: nếu danh sách sắp xếp theo thứ tự thời gian giảm dần --> cũng không sợ miss bài viết. Nhưng có nguy cơ trùng bài viết --> script cần kiểm tra có bị trùng không mới ghi vào danh sách.
Lấy dữ liệu từ website lần đầu
Tự động lấy dữ liệu từ bất website nào. Ví dụ website đang lấy có trang danh sách toàn bộ bài viết:
https://domainwebiste.com/path/to/danh-sach?page={thứ tự danh sách}
LẦN ĐẦU
Bước 1.1. Lấy danh sách bài viết lần đầu
Việc lập danh sách Link bài viết trước khi lấy rất quan trọng.
Chuyển công việc crawl qua máy khác
Chúng ta có thể bắt đầu crawl ở 1 máy tính có sẵn, dùng chung với hệ thống khác: laptop, dev, web, AI, ... Nhưng do nhu cầu mở rộng, chuyên nghiệp. Hoặc đơn giản việc crawl thiếu ổn định cũng như gây mất ổn định cho hệ thống khác mà nó đang "ở ké" nên chúng ta cần chuyển nó ra ở riêng.
Một số nguyên tắc:
- Chưa xóa dữ liệu đích nhé. Chỉ xóa khi bạn đã chắc chắn live tất cả công việc trên Crawl-Server
Bước 1. Cài đặt máy chủ Crawl
- Tham khảo bài viết:
Bước 2. Dừng crawl lại
Gồm cả lệnh thủ công hay tự động qua cron