Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "CNTT" các nội dung bạn quan tâm.

Phần mềm

Lấy danh sách bài viết trong Windows

ICT

Linux trỉ phù hợp khi không bị chặn bot bằng Captcha hay Cloudflare.

Nếu bị chặn, bạn cần làm trên windows, chrome thật.

Bước 1. Tạo môi trường ảo myenv

Việc này là cần thiết khi có nhiều luồn crawl và không muốn các luồng ảnh hưởng nhau cũng như ảnh hưởng đến windows gốc.

--> Mỗi dự án/mỗi luồng crawl nên có 1 myenvy riêng để trong chính thư mục luồng crawl đó.

Tham khảo: 

Cài đặt WSL để dùng Linux trong Windows

ICT

Quá nhiều thứ khiến chúng ta phụ thuộc vào Linux. Nếu dùng Windows sẽ bị bó tay chân rất nhiều. Docker cũng hay nhưng khá cồng kềnh, và vẫn không thấy thực sự ổn định/nhẹ/âm thầm.

Cách cài rất đơn giản:

🧩 1. Kiểm tra phiên bản Windows

Nhấn Start → gõ “cmd” → mở Command Prompt → chạy:

Tạo proxy trên máy Windows: Tinyproxy trong WSL trong mạng nội bộ không có IP tĩnh (khó nhất)

ICT

Tình huống là:

  • Máy Windows 10 home
  • Trong mạng LAN có IP tĩnh hoặc không
  • Mạng LAN kết nối ra bên ngoài có IP tĩnh hoặc không

Đây có lẽ là tình huống khó nhất để tạo proxy. Cũng đắt giá, vì proxy thường là "động" một cách tự nhiên.

Sơ đồ:

Crawl PC (Windows) -Tailscale - PC proxy (Windows) - WSL - Tinyproxy - ra mạng bên ngoài

Do khá nằng nhằng lên tốc độ có thể giảm 2-20%

A. TRÊN MÁY PC PROXY (WINDOWS)

Bước 1. Cài https://tailscale.com

Tải về và cài như bình thường

Bước 3. Thêm luồng crawl mới

ICT

Chúng ta đã thực hiện xong luồng thứ nhất:

Bước 1. Lấy danh sách

Bước 2. Lấy từng content theo danh sách. Bước 2* là crawl trong Windows.

Với các trang chống bot phức tạp, hay cần đăng nhập thay vì dùng cookies có thể dùng trình duyệt thật trên Windows thay vì dùng Linux.

Bây giờ chúng ta qua luống crawl khác, luồng này mình ưu tiên dùng Windows và dùng proxy. Đây là cách chắc chắn nhất để khi mới tiếp cận, thời gian ít chúng ta có thể vận dụng ngay (Bước 2*).

Một số tình huống khi crawl

ICT

Nếu thực hiện đúng các hướng dẫn trên, thì gặp các vấn đề sẽ rất ít. Ví dụ chặn bot, cần đăng nhập, cần cookies,...

1. Vấn đề đau đầu nhất là khi crawl lần đầu, danh sách lớn. Và có thể bị dừng hoặc có thể có một vài lỗi khiến một số link không tải được. Và script vượt qua, làm link mới. Hoặc có khi không tải đủ số files, loại files. Việc theo vết thủ công là bất khả thi.

Giải pháp: viết script để: