Một số tình huống khi crawl

Nếu thực hiện đúng các hướng dẫn trên, thì gặp các vấn đề sẽ rất ít. Ví dụ chặn bot, cần đăng nhập, cần cookies,...

Giải pháp: viết script để:

Check các lần crawl (file danh sách đầu ra) --> file danh sách đầu vào cho lần tiếp theo.
Check folder/files thực tế tải về và thêm field TaiVeCheck cho danh sách đầu vào lần tiếp theo

Cách làm thì cụ thể từng dự án. Nói chung cần viết script python, đừng nghĩ đến dùng excel hay các biện pháp khác.

Vấn đề này tưởng không tưởng, nhưng gặp thường xuyên đấy. Nhất là có nhiều luồng công việc, nhiều website cần lấy data.

Giải pháp:

Đặt tên Folder, Files rõ ràng, kèm phiên bản. Viết liền, không dấu. Đừng ngại dài.
Cần ghi log cụ thể, đừng tiếc thời gian nhé. Thời gian bạn mò lại còn lâu hơn và có thể cần làm lại từ đầu.
Có thể dùng OneNote để ghi log làm việc, rất tiện.
Ưu tiên viết script để có thể chạy lại từ đầu mà vẫn đảm bảo làm lại/bỏ qua tùy vào link thành công lấy về hay chưa.

Bài nổi bật