Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "KSNK" các nội dung bạn quan tâm.

Một số tình huống khi crawl

ICT

Nếu thực hiện đúng các hướng dẫn trên, thì gặp các vấn đề sẽ rất ít. Ví dụ chặn bot, cần đăng nhập, cần cookies,...

1. Vấn đề đau đầu nhất là khi crawl lần đầu, danh sách lớn. Và có thể bị dừng hoặc có thể có một vài lỗi khiến một số link không tải được. Và script vượt qua, làm link mới. Hoặc có khi không tải đủ số files, loại files. Việc theo vết thủ công là bất khả thi.

Giải pháp: viết script để:

  • Check các lần crawl (file danh sách đầu ra) --> file danh sách đầu vào cho lần tiếp theo.
  • Check folder/files thực tế tải về và thêm field TaiVeCheck cho danh sách đầu vào lần tiếp theo

Cách làm thì cụ thể từng dự án. Nói chung cần viết script python, đừng nghĩ đến dùng excel hay các biện pháp khác.
 

2. Vấn đề "quên" mình đang làm gì

Vấn đề này tưởng không tưởng, nhưng gặp thường xuyên đấy. Nhất là có nhiều luồng công việc, nhiều website cần lấy data.

Giải pháp:

  • Đặt tên Folder, Files rõ ràng, kèm phiên bản. Viết liền, không dấu. Đừng ngại dài.
  • Cần ghi log cụ thể, đừng tiếc thời gian nhé. Thời gian bạn mò lại còn lâu hơn và có thể cần làm lại từ đầu.
  • Có thể dùng OneNote để ghi log làm việc, rất tiện.
  • Ưu tiên viết script để có thể chạy lại từ đầu mà vẫn đảm bảo làm lại/bỏ qua tùy vào link thành công lấy về hay chưa.