Thu thập dữ liệu Web, API: tư duy, công cụ, bí quyết và kỹ thuật hiệu quả

4.000.000VND

dtnguyen (Nguyễn Đức Thanh)
@ Học Excel Online | DTNguyen.business
Mô tả
  • Khám phá thế giới thu thập dữ liệu web với “Thu Thập Dữ Liệu Web: Tư duy, công cụ, bí Quyết và Kỹ Thuật hiệu quả”.
  • Học cách tiếp cận thông minh, nắm bắt công cụ tiên tiến, khai phá bí mật của ngành và tinh chỉnh kỹ năng của bạn.
  • Dù bạn là người mới học hay chuyên gia, khóa học này sẽ mở ra cánh cửa vô số cơ hội trong thế giới số hóa hiện đại.
  • Nắm bắt tư duy phân tích kỹ thuật nhạy bén, chính xác
  • Sử dụng các công cụ mạnh mẽ kết hợp với sự hỗ trợ của công cụ trí tuệ nhân tạo giúp cho việc tìm tới giải pháp nhanh chóng hơn

Thông tin khóa học

Thông tin chi tiết

Chào mừng bạn đến với “Khoá học Thu thập dữ liệu Web, API: Tư duy, công cụ, bí quyết và kỹ thuật hiệu quả”!

Trong khoá học này, bạn sẽ được trang bị toàn diện về việc thu thập dữ liệu từ Web.

Đầu tiên, tôi sẽ giới thiệu cho bạn các công cụ thiết yếu như Postman, Google Chrome (Edge) developer tools, giúp bạn dễ dàng tiếp cận và thu thập thông tin từ trang web. Tại mục Developer tools, chúng ta sẽ đi sâu vào việc nắm vững thẻ Network, Elements, Sources, giúp bạn có khả năng phân tích chi tiết bất kỳ trang web nào.

Đặc biệt, khóa học không chỉ dừng lại ở việc khai thác thông tin, tôi còn hướng dẫn bạn cách xử lý nhanh chóng dữ liệu json lớn sau khi tải về, giúp bạn tối ưu hoá quy trình làm việc của mình bởi vì nếu chúng ta không có phương án cho phần này, các công cụ truyền thống sẽ gặp khó khăn lớn, không đủ processing power để có thể xử lý được những file JSON vài trăm MB tới hàng GB.

Vấn đề encoding trên nền tảng Windows sử dụng PowerShell thường gây ra nhiều khó khăn. Nhưng đừng lo, tôi sẽ chỉ ra cho bạn cách giải quyết hiệu quả bằng việc sử dụng Ubuntu Subsystem trên Windows, và cách thức tương tự trên MacOS.

Cuối cùng, thông qua các bài học chi tiết dưới dạng case study, bạn sẽ được trải nghiệm thực tế, phân tích luồng dữ liệu, và hiểu rõ cách truy vấn dữ liệu. Đôi khi, việc này không hề đơn giản như bạn nghĩ. Chúng ta sẽ cùng nhau khám phá, tìm hiểu kịch bản truy vấn, và từ đó, đưa ra giải pháp tối ưu.

Vì đây là một khoá học nâng cao về kỹ thuật và tư duy phân tích, nên Thanh đề xuất các bạn nên có kiến thức cơ bản từ một trong những khoá học sau đây hoặc tương đương:

  1. [VBA301] Tự động hóa, tương tác với hệ thống Web sử dụng Excel VBA Python (ưu tiên)
  2. [PQ103] Power Query truy vấn thông tin trên Web phải đăng nhập, API, online data sources
  3. [GAS901] Thu thập dữ liệu từ Web thương mại điện tử, web chứng khoán, và các API với Google Apps Script
  4. [CE102] Tự tạo công cụ hỗ trợ kế toán đảm bảo an toàn dữ liệu

Hiện tại, các case study sẽ liên quan tới: hồ sơ thầu, truy vấn thông tin công ty từ mã số thuế, truy vấn thông tin chứng khoán, download file PDF từ cổng thông tin công ty chứng khoáng, thông tin liên quan dữ liệu tài chính và nhiều ví dụ khác sẽ được cập nhật theo thời gian.

Hãy cùng tham gia và nâng cao kỹ năng của mình với khoá học này!

Danh sách bài học

0000 – Giới thiệu khoá học về Web Scraping
0001 – Bàn một chút về khía cạnh pháp lý và đạo đức của Web Scraping
0002 – Một số kiến thức cơ bản được đề xuất và công cụ cần chuẩn bị
0100 – Tương tác giữa trình duyệt và Web Server cơ bản
0101 – Phân tích các cách mà Server trả dữ liệu Web về cho trình duyệt
0200 – Case study dữ liệu thầu – giai đoạn discovery, khám phá truy vấn
0201 – Giả lập lại truy vấn truy cập dữ liệu bằng công cụ
0202 – Chủ động thay đổi thông tin truy vấn để truy cập được nhiều dữ liệu hơn, nhanh hơn
0203 – Ứng dụng chatGPT để hỗ trợ kỹ thuật cho WebScraping
0204 – Xử lý dữ liệu lớn được lưu trữ trong file JSON và chuyển qua dạng CSV
0205 – Cài đặt jq công cụ xử lý file json cỡ lớn trên Windows
0206 – Sử dụng jq để xử lý file JSON lớn. Lưu ý khi sử dụng jq trên Windows
0207 – Thử xử lý lỗi encoding bằng Ubuntu WSL2 trên Windows 11
0300 – Giới thiệu case study 02 – tra cứu thông tin công ty từ mã số thuế
0301 – Giả lập mạng chậm để phân tích truy vấn dữ liệu Web
0302 – Phân tích cơ chế truy vấn, lấy token, tìm kiếm dữ liệu và trả về dữ liệu thông tin công ty
0303 – Thiết lập giải pháp với chatGPT và test giải pháp trực tiếp trên trang Web
0400 – Giới thiệu case study 03 – Phân tích cấu trúc và sử dụng công cụ để lấy thông tin cần thiết bị a
0500 – Case Study 04 – download thông tin công bố chứng khoán – pdf
0501 – Discovery – tìm ra cách download pdf
0502 – Phân tích cấu trúc đường dẫn tới file pdf cần download
0503 – Sử dụng chatGPT để đưa ra giải pháp
0504 – Giải quyết vấn đề file download về không đúng tên, kiểu file và hoàn thành
0600 – Scrape lịch sử trả cổ tức, chia thưởng và tăng vốn

0700 – Case Study 06 – phân tích lịch sử trả cổ tức, chia thưởng, tăng vốn cho bất kỳ mã chứng khoán nào

0800 – Case Study 07 – phân tích đường dẫn tới báo cáo PDFs liên quan tới mã chứng khoán cụ thể – giải pháp Google Apps Script.

0900 – Tra cứu giá thuốc hàng loạt từ dichvucong.dav.gov.vn

Khóa học liên quan

Thu thập dữ liệu Web, API: tư duy, công cụ, bí quyết và kỹ thuật hiệu quả
4.000.000VND