Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "KSNK" các nội dung bạn quan tâm.

Crawler, Spider, Scraper

ICT

Crawl Dữ Liệu (Data Crawling/Web Scraping)

 

Crawl dữ liệu (hay web crawling, web scraping) là quá trình thu thập hoặc trích xuất dữ liệu thô (raw data) từ các nguồn, đặc biệt là từ các trang web trên Internet, một cách tự động.

  • Mục tiêu chính: Thu thập dữ liệu.
  • Hoạt động: Sử dụng các công cụ/phần mềm (crawler, spider, scraper) để duyệt qua các trang web, theo các đường link và tải xuống nội dung, sau đó trích xuất các phần dữ liệu cụ thể (ví dụ: giá sản phẩm, đánh giá, thông tin liên hệ).
  • Đầu ra: Tập dữ liệu thô, có thể chưa được cấu trúc hoặc đã được cấu trúc lại một phần.

Để thuận tiện, các bài viết sẽ dùng từ 1 từ duy nhất: Crawl.

Việc crawl dữ liệu là rất cần thiết để phục vụ xây dựng các ứng dụng AI chi Y tế.

Chuyên đề này chia sẻ cách crawl tự động:

  1. Cập nhật danh sách nội dung (URL)
  2. Lấy nội dung mới, bỏ qua nội dung đã lấy
  3. Tái tạo thành nội dung có cấu trúc (JSON, CSV)

Việc sử dụng dữ liệu cuối cùng (JSON, CSV) tùy vào mục dích của bạn trong training AI hay chỉ đơn giả import vào website.