Phần mềm | Công Nghệ Thông Tin Y Tế

Thêm mật khẩu cho proxy

Do crawl PC có thể bị thay đổi IP nên việc kiểm soát từ máy chủ vào tinyproxy khó khăn nếu chỉ dựa vào IP.

{Nếu không kiểm soát có thể bị lợi dụng}

Do đó nên đặt pass.

1. Cấu hình BasicAuth trong Tinyproxy

Mở file cấu hình:

Xem thêm bài viết Thêm mật khẩu cho proxy
Đăng nhập để gửi ý kiến

Lấy danh sách bài viết trong Windows

Linux trỉ phù hợp khi không bị chặn bot bằng Captcha hay Cloudflare.

Nếu bị chặn, bạn cần làm trên windows, chrome thật.

Bước 1. Tạo môi trường ảo myenv

Việc này là cần thiết khi có nhiều luồn crawl và không muốn các luồng ảnh hưởng nhau cũng như ảnh hưởng đến windows gốc.

--> Mỗi dự án/mỗi luồng crawl nên có 1 myenvy riêng để trong chính thư mục luồng crawl đó.

Tham khảo:

Xem thêm bài viết Lấy danh sách bài viết trong Windows
Đăng nhập để gửi ý kiến

Cài đặt môi trường ảo trong windows

Mục đích: tạo môi trường ảo để cài python, các thư viện để chạy crawl.

🧩 1️⃣ Mở Command Prompt

(chạy dưới quyền Administrator cũng được, không bắt buộc)

Rồi gõ từng dòng sau:

Xem thêm bài viết Cài đặt môi trường ảo trong windows
Đăng nhập để gửi ý kiến

Tự động lấy bài - đăng tin

Hoạt động tự động này là hoạt động khá phức tạp. Kiên quan đến nhiều hoạt động.

Cách tiếp cận: hãy bắt đầu bằng đích đến --> mò lại đầu vào!

Có vẻ hơi ngược, nhưng nguyên tắc này rất quan trọng. Hoặc quan trọng với mình.

Xem thêm bài viết Tự động lấy bài - đăng tin
Đăng nhập để gửi ý kiến

Ngăn wsl tự tắt và proxy luôn luôn live khi có điện

A. NGĂN WSL TỰ TẮT

Tham khảo: Giữ WSL luôn khởi động, luôn bật

Xem thêm bài viết Ngăn wsl tự tắt và proxy luôn luôn live khi có điện
Đăng nhập để gửi ý kiến

Mức độ bảo mật của phương pháp này Tailscale - WSL - Tinyproxy

1. Tailscale hoạt động như một mạng riêng ảo (VPN mesh)

Khi bạn cài Tailscale, nó gắn mỗi máy một IP 100.x.x.x riêng.
Tất cả các máy đăng nhập cùng 1 tài khoản / cùng 1 tailnet sẽ:

Xem thêm bài viết Mức độ bảo mật của phương pháp này Tailscale - WSL - Tinyproxy
Đăng nhập để gửi ý kiến

Cài đặt WSL để dùng Linux trong Windows

Quá nhiều thứ khiến chúng ta phụ thuộc vào Linux. Nếu dùng Windows sẽ bị bó tay chân rất nhiều. Docker cũng hay nhưng khá cồng kềnh, và vẫn không thấy thực sự ổn định/nhẹ/âm thầm.

Cách cài rất đơn giản:

🧩 1. Kiểm tra phiên bản Windows

Nhấn Start → gõ “cmd” → mở Command Prompt → chạy:

Xem thêm bài viết Cài đặt WSL để dùng Linux trong Windows
Đăng nhập để gửi ý kiến

Tạo proxy trên máy Windows: Tinyproxy trong WSL trong mạng nội bộ không có IP tĩnh (khó nhất)

Tình huống là:

Máy Windows 10 home
Trong mạng LAN có IP tĩnh hoặc không
Mạng LAN kết nối ra bên ngoài có IP tĩnh hoặc không

Đây có lẽ là tình huống khó nhất để tạo proxy. Cũng đắt giá, vì proxy thường là "động" một cách tự nhiên.

Sơ đồ:

Crawl PC (Windows) -Tailscale - PC proxy (Windows) - WSL - Tinyproxy - ra mạng bên ngoài

Do khá nằng nhằng lên tốc độ có thể giảm 2-20%

A. TRÊN MÁY PC PROXY (WINDOWS)

Bước 1. Cài https://tailscale.com

Tải về và cài như bình thường

Bước 3. Thêm luồng crawl mới

Chúng ta đã thực hiện xong luồng thứ nhất:

Bước 1. Lấy danh sách

Bước 2. Lấy từng content theo danh sách. Bước 2* là crawl trong Windows.

Với các trang chống bot phức tạp, hay cần đăng nhập thay vì dùng cookies có thể dùng trình duyệt thật trên Windows thay vì dùng Linux.

Bây giờ chúng ta qua luống crawl khác, luồng này mình ưu tiên dùng Windows và dùng proxy. Đây là cách chắc chắn nhất để khi mới tiếp cận, thời gian ít chúng ta có thể vận dụng ngay (Bước 2*).

Xem thêm bài viết Bước 3. Thêm luồng crawl mới
Đăng nhập để gửi ý kiến

Một số tình huống khi crawl

Nếu thực hiện đúng các hướng dẫn trên, thì gặp các vấn đề sẽ rất ít. Ví dụ chặn bot, cần đăng nhập, cần cookies,...

1. Vấn đề đau đầu nhất là khi crawl lần đầu, danh sách lớn. Và có thể bị dừng hoặc có thể có một vài lỗi khiến một số link không tải được. Và script vượt qua, làm link mới. Hoặc có khi không tải đủ số files, loại files. Việc theo vết thủ công là bất khả thi.

Giải pháp: viết script để:

Xem thêm bài viết Một số tình huống khi crawl
Đăng nhập để gửi ý kiến

Bài nổi bật

#1 Bảng Kiểm Đánh Giá Chất Lượng Bệnh Án Điện Tử
ICT

#2 10.9. Quy trình Duyệt Hồ Sơ Bệnh Án của Ban Giám Đốc
ICT

#3 1. Quyết định Thành lập Hội đồng chuyên môn về việc sử dụng Bệnh án điện tử
ICT

#4 TCVN 11930_2017_916781 - Yêu cầu cơ bản về an toàn hệ thống thông tin theo cấp độ
ICT

#5 0.1. Tài liệu về Đánh giá CNTT và Quy chế Bệnh viện
ICT

#6 12.4. Kế hoạch triển khai bệnh án điện tử - Bệnh viện...
ICT