Phần mềm | Công Nghệ Thông Tin Y Tế

Tạo proxy trên máy chủ có sẵn bằng Tinyproxy

Nhu cầu: Chỉ cần thêm vài proxy cho mục đích crawl hay vượt qua chống bot; Muốn ổn định, tin cậy, làm chủ hoàn toàn; Nói chung là chu cầu ít, đơn giản thì có thể tham khảo bài này. Nếu cần lượng lớn proxy để spam thì cân nhắc đi thuê, rất rẻ và linh hoạt.

Xem thêm bài viết Tạo proxy trên máy chủ có sẵn bằng Tinyproxy
Đăng nhập để gửi ý kiến

Bước 2*. Tải về từng liên kết trong danh sách sử dụng Windows

Thường cần dùng đến nếu site có sử dụng CloudFlare để chống bot (mình là bot mà). Do đó cần:

Trình duyệt thật
Ưu tiên windows
Có thể cần vượt qua captcha được (cần trình duyệt mở lên thật để thao tác)
Có một lợi thế quan trọng là không cần phải truyền cookies vào do mình dùng trình duyệt thật. Nên chỉ cần dãn cách thời gian crawl thì gần như không có cách nào mà chúng ta bị chặn.

Dưới đây hướng dẫn cả các cài đặt môi trường đến script ví dụ.

Xem thêm bài viết Bước 2*. Tải về từng liên kết trong danh sách sử dụng Windows
Đăng nhập để gửi ý kiến

NVTOP – Trình giám sát GPU thời gian thực cho Linux và Apple Silicon

NVTOP (viết tắt của Neat Videocard TOP) là công cụ dòng lệnh tương tự htop, nhưng dành riêng cho GPU và các bộ tăng tốc phần cứng (accelerators). Nó cho phép người dùng theo dõi chi tiết hiệu năng, mức sử dụng và điện năng của nhiều GPU cùng lúc thông qua giao diện tương tác ngay trong Terminal.

Xem thêm bài viết NVTOP – Trình giám sát GPU thời gian thực cho Linux và Apple Silicon
Đăng nhập để gửi ý kiến

asitop – Công cụ giám sát hiệu năng Apple Silicon trực tiếp trên Terminal

asitop là một công cụ dòng lệnh (command-line tool) được viết bằng Python, lấy cảm hứng từ nvtop trên hệ thống Linux. Nó cho phép người dùng theo dõi hiệu năng phần cứng của máy Mac dùng chip Apple Silicon (M1, M2, M3...) một cách trực quan ngay trong Terminal.

Xem thêm bài viết asitop – Công cụ giám sát hiệu năng Apple Silicon trực tiếp trên Terminal
Đăng nhập để gửi ý kiến

Ngày giờ hệ thống không đúng

Giờ của máy chủ AI đang không đúng:

root@ai:/mnt$ date

Fri Oct 17 12:44:49 PM UTC 2025

Lúc này đang là 19:44

Lý do:

Máy đang hiển thị UTC, cần ở UTC+7 (Asia/Ho_Chi_Minh). 12:44 UTC + 7 = 19:44.

Tức là giờ hệ thống chuẩn rồi, chỉ cần đặt đúng timezone để hiển thị theo giờ Việt Nam.

# Xem tình trạng hiện tại
timedatectl

# Đặt timezone về Việt Nam
sudo timedatectl set-timezone Asia/Ho_Chi_Minh

Xem thêm bài viết Ngày giờ hệ thống không đúng
Đăng nhập để gửi ý kiến

Bước 1. Lấy danh sách bài viết lần đầu

1. Định hướng

Thời gian: chạy duy nhất lần đầu tiên
Thường các trang trả phí vẫn cho lấy danh sách mà không cần đăng nhập. Nên bước này không cần cookies.
Kiểm tra có khoảng bao nhiêu trang (?page=N) để chạy từ 1 đến N
- Cách 1. Cho chạy tất cả các trang lần lượt cùng lúc: nếu danh sách sắp xếp theo thứ tự thời gian giảm dần --> cũng không sợ miss bài viết. Nhưng có nguy cơ trùng bài viết --> script cần kiểm tra có bị trùng không mới ghi vào danh sách.
  - Ví dụ này đang dùng cách 1.

Xem thêm bài viết Bước 1. Lấy danh sách bài viết lần đầu
Đăng nhập để gửi ý kiến

Lấy dữ liệu từ website lần đầu

Tự động lấy dữ liệu từ bất website nào. Ví dụ website đang lấy có trang danh sách toàn bộ bài viết:

https://domainwebiste.com/path/to/danh-sach?page={thứ tự danh sách}

LẦN ĐẦU

Bước 1.1. Lấy danh sách bài viết lần đầu

Việc lập danh sách Link bài viết trước khi lấy rất quan trọng.

Xem thêm bài viết Lấy dữ liệu từ website lần đầu
Đăng nhập để gửi ý kiến

Chuyển công việc crawl qua máy khác

Chúng ta có thể bắt đầu crawl ở 1 máy tính có sẵn, dùng chung với hệ thống khác: laptop, dev, web, AI, ... Nhưng do nhu cầu mở rộng, chuyên nghiệp. Hoặc đơn giản việc crawl thiếu ổn định cũng như gây mất ổn định cho hệ thống khác mà nó đang "ở ké" nên chúng ta cần chuyển nó ra ở riêng.

Một số nguyên tắc:

Chưa xóa dữ liệu đích nhé. Chỉ xóa khi bạn đã chắc chắn live tất cả công việc trên Crawl-Server

Bước 1. Cài đặt máy chủ Crawl

Tham khảo bài viết:

Bước 2. Dừng crawl lại

Gồm cả lệnh thủ công hay tự động qua cron

Xem thêm bài viết Chuyển công việc crawl qua máy khác
Đăng nhập để gửi ý kiến

Crawler, Spider, Scraper

Crawl dữ liệu (hay web crawling, web scraping) là quá trình thu thập hoặc trích xuất dữ liệu thô (raw data) từ các nguồn, đặc biệt là từ các trang web trên Internet, một cách tự động. Data này rất cần cho việc khai thác sức mạnh của AI.

Xem thêm bài viết Crawler, Spider, Scraper

Drupal

Thay vì đi sâu lý thuyết trừu tượng, loạt bài tập trung giúp người học hiểu đúng bản chất Drupal, nắm được cách tổ chức dữ liệu, phân quyền, cấu hình và vận hành hệ thống ngay từ những bước đầu tiên.