Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "KSNK" các nội dung bạn quan tâm.

Chuẩn bị phần cứng, phần mềm, kết nối cho Crawl

ICT

Nếu cần crawl nhiều, tự động, nguồn phức tạp thì việc chuẩn bị kỹ sẽ giúp bạn tiết kiệm rất nhiều thời gian và ổn định sau này,

Tuy nhiên ACE cần xác định một số nguyên tắc:

  1. Không cạnh tranh trực tiếp thị trường với nguồn: thử tưởng tượng bạn đã kỳ công tạo ra 1 data lớn, nhưng lại bị lấy hết và bị chính người lấy đi mang ra bán y như bạn đã làm. Điều mình không muốn thì đừng làm với người khác. Việc crawl dữ liệu cần gắn với việc làm tăng giá trị dữ liệu, khai thác vào mục đích khác với trang nguồn, nếu được làm tăng giá trị của nguồn lên. Ví dụ đặt backlink cho họ để tăng rating cho họ.
  2. Không crawl dồn dập chiếm dụng tài nguyên nguồn: hãy chọn khung giờ vắng truy cập của trang nguồn, hãy chỉnh delay tăng lên. Đừng để ảnh hưởng đến việc truy cập của khách hàng tự nhiên đến trang nguồn.
  3. Không crawl các tài liệu độc quyền của trang nguồn: chỉ lấy về các tài liệu công khai. Các tài liệu bạn đã đăng ký thành viên (đã mua/trả phí) nếu tải về thì chỉ dùng cho mục đích cá nhân, tạo ra giá trị ra tăng khác.

Nói chung, cái mình không muốn xẩy ra với mình thì đừng làm với người khác.

A. MÔI TRƯỜNG, HỆ ĐIỀU HÀNH

1. Hệ điều hành chính nên là Windows BẢN QUYỀN

Có rất nhiều lý do nên chọn Windows làm hệ điều hành chính:

  • Lý do quan trọng nhất: rất nhiều công cụ chống bot chặn linux, headless browser, các trình duyệt linux
  • Hiện tại Windows 11 pro for worstation cũng rất ổn định.
  • Cài đặt dễ dàng các phần mềm xem, duyệt nhanh tài liệu tải về
  • Crawl không quá tốn tài nguyên CPU, GPU, RAM nên không quá cần tiết kiệm quá mức tài nguyên để mà dùng linux. Cái chúng ta cần là thời gian, âm thầm.
  • Quét Virus: thế giới Linux, Mac gần như không thấy Virus nên cũng khó mà "quét" được. Mình cũng chưa thấy app nào quết Virus cho windows trên Linux. Có thể do mình chưa tìm hiểu. Còn trên windows thì có sẵn phần mềm diệt virus đi kèm, và hiện nay rất tốt, từ lâu mình không còn dùng phần mềm diệt virus nữa. Dù muốn ổn định, nhưng crawl là cửa ngõ tải đủ thể loại files về, nên luôn cần update và cho chạy realtime phần mềm bảo vệ này của Windows.

2. Cần linux nên dùng ngay WSL

Khá nhiều web chặn bot thấp, thậm chí không hề có sàng lọc. Trừ khi truy cập quá nhanh như tấn công DDOS mới bị chặn. Lúc này việc dùng Linux để crawl quá lợi hại.

Hiện tại 10/2025, nên dùng Ubuntu 22.04.5 LTS. Nếu muộn hơn, bạn có thể check xem phiên bản nào ổn định nhất. Crawl rất cần ổn định và tương thích các phần mềm. Đừng ham OS mới quá, gỡ lỗi rất mệt. Trừ khi biết rõ lý do mới dùng bạn mới/quá cũ.

  • WSL có sẵn, và rất ổn định. Là cách dùng linux tốt nhất trên Windows. Kể cả docker cũng không thích bằng.
  • Có crontab rất tiện để đặt lịch tự động.
  • Không khác gì việc dùng Linux riêng. Và có thêm nhiều tiện ích Windows như bên trên đi kèm.

B. CHUẨN BỊ PHẦN CỨNG

1. CRAWL PC

Nhiều quan niệm về lựa chọn phần cứng này, đặc biệt nó phụ thuộc vào cách bạn chọn hệ điều hành chính để chạy. Với mình đang dùng Windows với các lý do ở A.1 nên theo hướng khác. Đây là một số nguyên tắc:

  • Tối ưu nhất cho hệ điều hành Windows --> Workstation là lựa chọn hoàn hảo.
  • Tối ưu cho chạy 24/7
  • Êm ái: nên loại trừ các dòng server/rack hiệu năng cao nhưng ồn ào
  • Tiết kiệm điện tương đối: không quá đánh đổi tiết kiệm điện với hiệu năng. Nhưng đừng quá mạnh mẽ sẽ bào điện nhiều.
  • Ổn định: Xeon và RAM EEC luôn là ưu tiên

Dựa trên nguyên tắc trên có một số lựa chọn: đó là các dòng workstation nhỏ gọn, hơi to hơn PC thông thường. Ví dụ Dell tower, HP worksation.

Lưu ý: Chip lên mới một chút để cài được Windows 11 native nhất. Liên quan đến T2. Do chúng ta cần update phần mềm diệt virus và thậm chí cả hệ điều hành để đảm bảo an toàn bảo mật nhất, được hỗ trợ vá bảo mật. Đừng xem thường bảo mật này vì dữ liệu tải về từ các website khác rất rủi ro.

Dưới đây là cấu hình tham khảo cho việc crawl nhẹ nhàng: khoảng 10 đến tối đa 20 luồng dữ liệu.

        - Máy Trạm Dell Precision T5820 (ver 2 Date 2021)
        - CPU : Intel Xeon W-2235 (3.8Ghz Turbo 4.6Ghz) 6 Core / 12 Threads
        - RAM : DDR4 ECC Register 32GB Buss 2666
        - MAIN : Dell T5820 Chipset C422
        - SSD : Nvme PCie 512Gb
        - VGA: Quadro P620 (2Gb) (Thay đổi theo nhu cầu sử dụng)
        - PSU : Dell T5820 Theo Máy 950W (80Plus Gold)
►GIÁ khoảng: 13.500.000Đ (Bảo Hành 1 Năm).

Có thể cần nâng cấp theo nhu cầu của bạn:

  • Ổ cứng để dữ liệu Crawl, Raid 1, thậm chí vừa làm backup cho các hệ thống khác. Nói chung tùy nhu cầu.
  • RAM: mình có nâng cấp lên tổng 64G. Vì việc chạy WSL, nhiều tác vụ cùng lúc nên rất cần. Nếu thiếu có thể tăng thêm.
  • VGA chỉ xuất hình là đủ
  • PSU: nên mạnh, để ổn định máy. Và rất nên tận dụng cái PSU này để làm cục ...sạc cho các thiết bị gần bàn làm việc. Cũng tiết kiệm được tiền, không gian bàn làm việc.

Một điều thú vị là các workstation này luôn có sẵn Windows pro for workstation bản quyền theo main!!! Rất đáng tiền. Chúng ta rất cần windows bản quyền cho crawl vì lý do bảo mật, an toàn như đã đề cập nhiều chỗ.

2. UPS - Bộ lưu điện

  • Tối quan trọng, chỉ sau PC nhé.
  • Đảm bảo phiên làm việc luôn luôn chạy, không bị ngắt. Mỗi lần ngắt, việc bật lên 10-20 luồng công việc nhiều khi là ác mộng!
  • Bảo vệ máy tính 24/7 chứ không chỉ dự phòng mất điện.

Mình dùng con này (con thứ 2 mình mua). Thấy an tâm, bền bỉ, đúng nhu cầu. Có thể hỗ trợ được 20 phút mất điện. Và có USB để kết nối máy tính đảm bảo tự tắt máy (hibernate) an toàn sau 10-15 phút mất điện.

Lưu ý: cục Wifi kèm (modem wifi) cũng cắm điện vào đây luôn nhé. Không tốn nhiêu điện nhưng rất đã đấy.

Bộ lưu điện UPS PROLINK PRO1201SFC (1200VA) 600W, AVR, sạc siêu nhanh, dùng cho PC, Camera, Wifi - Giá khoảng 1.8-2 triệu

C. PHẦN MỀM

1. Bộ Microsoft Office bản quyền

  • Bản home là đủ. Mình có mua và cài được đến 5 thiết bị, nên rất rẻ, dùng còn không hết.
  • Bản quyền cũng góp phần an toàn cho dữ liệu hơn
  • Office giúp bạn kiểm tra nhanh dữ liệu được tải về

2. Remote

Đây là phần mềm rất quan trọng. Vì hầu hết công việc chúng ta sẽ làm qua remote khi đã đi vào ổn định. Chỉ lâu lâu vào chỉnh sửa thôi.

Nguyên tắc:

  • Cần vào được từ cả win và mac. Vì nhiều ACE làm dev sẽ chủ yếu dùng Mac.
  • Ổn định
  • Miễn phí: các phần mềm remote nếu mua không hề rẻ

Lúc trước có Anydesk, nhưng 2025 đã chuyển qua trả phí rồi.

Hiện mình thấy https://rustdesk.com/ dùng ổn. Cả win, mac. Hình như có thể tự host được.

3. VS Code

Phần mềm code xịn nhất mình thấy. Thích hợp cho mọi thứ khác, không chỉ craw. Nó quản lý cả thư mục, có extension để xem dữ liệu ngay trong cây thư mục. Quản lý files không khác gì (tiện hơn) Explorere. Và soạn Script được. Cũng ssh đến server khi cần.

4. eMule - Chia sẻ file hàng ngang

Ngoài eMue cũng có thêm các phần mềm khác, giao thức khác. Nhưng không nói sâu ở đây.

Việc lấy data từ chia sẻ hàng ngang cũng là một chức năng quan trọng của Crawl PC. Đây cũng là lý do mà cần Windows - Các phần mềm này dùng tốt nhất trên windows.

 

D. MẠNG

  • Không cần IP tĩnh nhé. Thay đổi IP có lợi hơn là cố định.
  • Cân nhắc thuê proxy, đặc biệt khi có lỡ bị vào blacklist site nguồn
  • Mạng thường không là giới hạn của cralw đâu. Nên ACE dùng gói thấp nhất cũng được. Nếu không ổn có thể nâng cấp sau. Dùng ngay mạng gia đình là đủ dùng.

 

E. VỊ TRÍ ĐẶT CRAWL PC

  • Nên đặt ở nhà, bàn làm việc vì vọc vạch khá nhiều cả phần cứng, phần mềm, thậm chí có khi phải cài lại OS.
  • Nếu đầu tư card rời tốt, lâu lâu chiến Game cũng không thành vấn đề.
  • Cũng là máy dự phòng nếu như trưa về nhà cần máy tính làm việc.
  • Lưu ý máy này bật 24/7 nên cần không ồn ào nhé.