Nếu thực hiện đúng các hướng dẫn trên, thì gặp các vấn đề sẽ rất ít. Ví dụ chặn bot, cần đăng nhập, cần cookies,...
1. Vấn đề đau đầu nhất là khi crawl lần đầu, danh sách lớn. Và có thể bị dừng hoặc có thể có một vài lỗi khiến một số link không tải được. Và script vượt qua, làm link mới. Hoặc có khi không tải đủ số files, loại files. Việc theo vết thủ công là bất khả thi.
Giải pháp: viết script để:
- Check các lần crawl (file danh sách đầu ra) --> file danh sách đầu vào cho lần tiếp theo.
- Check folder/files thực tế tải về và thêm field TaiVeCheck cho danh sách đầu vào lần tiếp theo
Cách làm thì cụ thể từng dự án. Nói chung cần viết script python, đừng nghĩ đến dùng excel hay các biện pháp khác.
2. Vấn đề "quên" mình đang làm gì
Vấn đề này tưởng không tưởng, nhưng gặp thường xuyên đấy. Nhất là có nhiều luồng công việc, nhiều website cần lấy data.
Giải pháp:
- Đặt tên Folder, Files rõ ràng, kèm phiên bản. Viết liền, không dấu. Đừng ngại dài.
- Cần ghi log cụ thể, đừng tiếc thời gian nhé. Thời gian bạn mò lại còn lâu hơn và có thể cần làm lại từ đầu.
- Có thể dùng OneNote để ghi log làm việc, rất tiện.
- Ưu tiên viết script để có thể chạy lại từ đầu mà vẫn đảm bảo làm lại/bỏ qua tùy vào link thành công lấy về hay chưa.
- Đăng nhập để gửi ý kiến