Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "CNTT" các nội dung bạn quan tâm.

Phần mềm

Cài đặt WSL để dùng Linux trong Windows

ICT

Quá nhiều thứ khiến chúng ta phụ thuộc vào Linux. Nếu dùng Windows sẽ bị bó tay chân rất nhiều. Docker cũng hay nhưng khá cồng kềnh, và vẫn không thấy thực sự ổn định/nhẹ/âm thầm.

Cách cài rất đơn giản:

🧩 1. Kiểm tra phiên bản Windows

Nhấn Start → gõ “cmd” → mở Command Prompt → chạy:

Tạo proxy trên máy Windows: Tinyproxy trong WSL trong mạng nội bộ không có IP tĩnh (khó nhất)

ICT

Tình huống là:

  • Máy Windows 10 home
  • Trong mạng LAN có IP tĩnh hoặc không
  • Mạng LAN kết nối ra bên ngoài có IP tĩnh hoặc không

Đây có lẽ là tình huống khó nhất để tạo proxy. Cũng đắt giá, vì proxy thường là "động" một cách tự nhiên.

Sơ đồ:

Crawl PC (Windows) -Tailscale - PC proxy (Windows) - WSL - Tinyproxy - ra mạng bên ngoài

Do khá nằng nhằng lên tốc độ có thể giảm 2-20%

A. TRÊN MÁY PC PROXY (WINDOWS)

Bước 1. Cài https://tailscale.com

Tải về và cài như bình thường

Bước 3. Thêm luồng crawl mới

ICT

Chúng ta đã thực hiện xong luồng thứ nhất:

Bước 1. Lấy danh sách

Bước 2. Lấy từng content theo danh sách. Bước 2* là crawl trong Windows.

Với các trang chống bot phức tạp, hay cần đăng nhập thay vì dùng cookies có thể dùng trình duyệt thật trên Windows thay vì dùng Linux.

Bây giờ chúng ta qua luống crawl khác, luồng này mình ưu tiên dùng Windows và dùng proxy. Đây là cách chắc chắn nhất để khi mới tiếp cận, thời gian ít chúng ta có thể vận dụng ngay (Bước 2*).

Một số tình huống khi crawl

ICT

Nếu thực hiện đúng các hướng dẫn trên, thì gặp các vấn đề sẽ rất ít. Ví dụ chặn bot, cần đăng nhập, cần cookies,...

1. Vấn đề đau đầu nhất là khi crawl lần đầu, danh sách lớn. Và có thể bị dừng hoặc có thể có một vài lỗi khiến một số link không tải được. Và script vượt qua, làm link mới. Hoặc có khi không tải đủ số files, loại files. Việc theo vết thủ công là bất khả thi.

Giải pháp: viết script để:

Tạo proxy trên máy chủ có sẵn bằng Tinyproxy

ICT
Nhu cầu: Chỉ cần thêm vài proxy cho mục đích crawl hay vượt qua chống bot; Muốn ổn định, tin cậy, làm chủ hoàn toàn; Nói chung là chu cầu ít, đơn giản thì có thể tham khảo bài này. Nếu cần lượng lớn proxy để spam thì cân nhắc đi thuê, rất rẻ và linh hoạt.

Bước 2*. Tải về từng liên kết trong danh sách sử dụng Windows

ICT

Thường cần dùng đến nếu site có sử dụng CloudFlare để chống bot (mình là bot mà). Do đó cần:

  • Trình duyệt thật
  • Ưu tiên windows
  • Có thể cần vượt qua captcha được (cần trình duyệt mở lên thật để thao tác)
  • Có một lợi thế quan trọng là không cần phải truyền cookies vào do mình dùng trình duyệt thật. Nên chỉ cần dãn cách thời gian crawl thì gần như không có cách nào mà chúng ta bị chặn.

Dưới đây hướng dẫn cả các cài đặt môi trường đến script ví dụ.

NVTOP – Trình giám sát GPU thời gian thực cho Linux và Apple Silicon

ICT
NVTOP (viết tắt của Neat Videocard TOP) là công cụ dòng lệnh tương tự htop, nhưng dành riêng cho GPU và các bộ tăng tốc phần cứng (accelerators). Nó cho phép người dùng theo dõi chi tiết hiệu năng, mức sử dụng và điện năng của nhiều GPU cùng lúc thông qua giao diện tương tác ngay trong Terminal.

asitop – Công cụ giám sát hiệu năng Apple Silicon trực tiếp trên Terminal

ICT
asitop là một công cụ dòng lệnh (command-line tool) được viết bằng Python, lấy cảm hứng từ nvtop trên hệ thống Linux. Nó cho phép người dùng theo dõi hiệu năng phần cứng của máy Mac dùng chip Apple Silicon (M1, M2, M3...) một cách trực quan ngay trong Terminal.