Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "CNTT" các nội dung bạn quan tâm.

Phần mềm

Ngày giờ hệ thống không đúng

ICT

Giờ của máy chủ AI đang không đúng:

root@ai:/mnt$ date

Fri Oct 17 12:44:49 PM UTC 2025

Lúc này đang là 19:44

Lý do:

Máy đang hiển thị UTC, cần ở UTC+7 (Asia/Ho_Chi_Minh). 12:44 UTC + 7 = 19:44.

Tức là giờ hệ thống chuẩn rồi, chỉ cần đặt đúng timezone để hiển thị theo giờ Việt Nam.

# Xem tình trạng hiện tại
timedatectl

# Đặt timezone về Việt Nam
sudo timedatectl set-timezone Asia/Ho_Chi_Minh

Bước 1. Lấy danh sách bài viết lần đầu

ICT

1. Định hướng

  • Thời gian: chạy duy nhất lần đầu tiên
  • Thường các trang trả phí vẫn cho lấy danh sách mà không cần đăng nhập. Nên bước này không cần cookies.
  • Kiểm tra có khoảng bao nhiêu trang (?page=N) để chạy từ 1 đến N
    • Cách 1. Cho chạy tất cả các trang lần lượt cùng lúc: nếu danh sách sắp xếp theo thứ tự thời gian giảm dần --> cũng không sợ miss bài viết. Nhưng có nguy cơ trùng bài viết --> script cần kiểm tra có bị trùng không mới ghi vào danh sách.
      • Ví dụ này đang dùng cách 1.

Lấy dữ liệu từ website lần đầu

ICT

Tự động lấy dữ liệu từ bất website nào. Ví dụ website đang lấy có trang danh sách toàn bộ bài viết:

https://domainwebiste.com/path/to/danh-sach?page={thứ tự danh sách}

LẦN ĐẦU

Bước 1.1. Lấy danh sách bài viết lần đầu

Việc lập danh sách Link bài viết trước khi lấy rất quan trọng.

Chuyển công việc crawl qua máy khác

ICT

Chúng ta có thể bắt đầu crawl ở 1 máy tính có sẵn, dùng chung với hệ thống khác: laptop, dev, web, AI, ... Nhưng do nhu cầu mở rộng, chuyên nghiệp. Hoặc đơn giản việc crawl thiếu ổn định cũng như gây mất ổn định cho hệ thống khác mà nó đang "ở ké" nên chúng ta cần chuyển nó ra ở riêng.

Một số nguyên tắc:

  • Chưa xóa dữ liệu đích nhé. Chỉ xóa khi bạn đã chắc chắn live tất cả công việc trên Crawl-Server

Bước 1. Cài đặt máy chủ Crawl

  • Tham khảo bài viết: 

Bước 2. Dừng crawl lại

Gồm cả lệnh thủ công hay tự động qua cron

Crawler, Spider, Scraper

ICT
Crawl dữ liệu (hay web crawling, web scraping) là quá trình thu thập hoặc trích xuất dữ liệu thô (raw data) từ các nguồn, đặc biệt là từ các trang web trên Internet, một cách tự động. Data này rất cần cho việc khai thác sức mạnh của AI.

Drupal

ICT
Thay vì đi sâu lý thuyết trừu tượng, loạt bài tập trung giúp người học hiểu đúng bản chất Drupal, nắm được cách tổ chức dữ liệu, phân quyền, cấu hình và vận hành hệ thống ngay từ những bước đầu tiên.

Phần mềm văn phòng

ICT
Chuyên đề “Phần mềm văn phòng” tập trung chia sẻ kiến thức, kỹ năng và kinh nghiệm sử dụng các phần mềm văn phòng một cách đúng, hiệu quả và an toàn trong môi trường bệnh viện.

iOS

ICT
Chuyên đề “iOS” tập trung chia sẻ kiến thức, kinh nghiệm và hướng dẫn sử dụng các thiết bị chạy iOS/iPadOS như iPhone, iPad trong môi trường bệnh viện – nơi thiết bị di động ngày càng được sử dụng nhiều cho tra cứu, nhập liệu, giao tiếp, đào tạo và hỗ trợ công việc chuyên môn.