Crawl Dữ Liệu (Data Crawling/Web Scraping)
Crawl dữ liệu (hay web crawling, web scraping) là quá trình thu thập hoặc trích xuất dữ liệu thô (raw data) từ các nguồn, đặc biệt là từ các trang web trên Internet, một cách tự động.
- Mục tiêu chính: Thu thập dữ liệu.
- Hoạt động: Sử dụng các công cụ/phần mềm (crawler, spider, scraper) để duyệt qua các trang web, theo các đường link và tải xuống nội dung, sau đó trích xuất các phần dữ liệu cụ thể (ví dụ: giá sản phẩm, đánh giá, thông tin liên hệ).
- Đầu ra: Tập dữ liệu thô, có thể chưa được cấu trúc hoặc đã được cấu trúc lại một phần.
Để thuận tiện, các bài viết sẽ dùng từ 1 từ duy nhất: Crawl.
Việc crawl dữ liệu là rất cần thiết để phục vụ xây dựng các ứng dụng AI chi Y tế.
Chuyên đề này chia sẻ cách crawl tự động:
- Cập nhật danh sách nội dung (URL)
- Lấy nội dung mới, bỏ qua nội dung đã lấy
- Tái tạo thành nội dung có cấu trúc (JSON, CSV)
Việc sử dụng dữ liệu cuối cùng (JSON, CSV) tùy vào mục dích của bạn trong training AI hay chỉ đơn giả import vào website.