Python網路爬蟲實戰馬拉松 【網路爬蟲課程】

Python網路爬蟲實戰馬拉松 【網路爬蟲課程】

▌大數據時代,AI 工程師必修的基礎技術

在這個資訊爆炸的時代,資料收集是資料科學中的基礎技能,如何高效的收集目標資料是 AI 工程師必修的課題。能善用「網路爬蟲」技術的人,可以更有效、精確地從網路自動化地收集海量資訊,為後續機器學習的資料集舖路。本課程將讓你學習如何打造自動高效的爬蟲程式,幫你邁出資料科學成功的第一步。

▌課程內容與實作專題

本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術,到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術,最後是整合所學的實務專題,共包括6大學習里程碑,幫助你掌握Python網路爬蟲的重要基礎知識與實戰能力。

◤6大學習里程碑◢

1- 爬蟲基礎知識

介紹基本的Http網路通訊原理與HTML內容格式,搭配程式自動化收集資料

2- 靜態網頁爬蟲技術

拆解靜態網頁的規格與原理,使用Python爬蟲解析HTML / CSS / Javascript並收集靜態網頁中特定的資料

3- 動態網頁爬蟲技術

以使用Selenium + BeautifulSoup 模擬瀏覽器執行動態網頁,解析收集各種動態網頁生成的特定資料,並學習用瀏灠器開發者工具解析網頁內容的特徵

4- Scrapy 網站爬蟲框架

面對網站級別的多網頁爬蟲需求,學習用Scrapy建立爬蟲策略與爬蟲框架

5- 進階爬蟲技術

有許多網站並非完全公開,本章將教你如何使用爬蟲進階技巧克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率。

◤8個爬蟲實務專題◢

1- ETTODAY 靜態爬蟲實作練習

2- PTT(批踢踢)網路爬蟲實作練習

3- Wiki爬蟲實作練習

4- Yahoo! 電影網頁實作練習

5- 金融資訊網頁爬蟲實作練習

6- 空氣污染網站爬蟲實作練習

7- 東森新聞雲網站爬蟲實作練習

8- 104人力銀行網站爬蟲實作練習

9- 期末綜合爬蟲實戰練習

▌線上助教陪你升級打怪

課程搭配線上助教講解服務,專家與助教陪你升級打怪,只要你有心,不怕學不會。

▌本課程將讓你將掌握下列技能

  • 能使用Python獨立完成網路爬蟲程式之撰寫與實務應用
  • 掌握網站架構解析與觀察Http Request / Response解析目標網站的資訊內容
  • 能針對靜態網站與動態網站分別實作不同的網路爬蟲策略
  • 實際完成真實網站的網路爬蟲挑戰與解決實際遭遇的爬蟲問題
  • 使用爬蟲進階技術克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率

▌隨課附贈資料視覺化工作坊

一圖勝千言,資訊圖表能夠讓人更快速的理解。本次課程搭配資料視覺化實戰工作坊,手把手教你將巨量無序的資料整理成各種清楚簡潔的圖表,讓你快速將網路爬蟲搜集的大量資料圖表化,洞察數據背後的故事。

即日起報名本課程的用戶,即可免費獲得價值800元的「2小時就上手!用Pyecharts做出可互動的酷炫圖表」線上工作坊,教你用 Python 玩轉資料,繪製各種酷炫的資料圖表,限量150名

▌學員評價

▌課程注意事項

參加資格 / 預讀資料

課程範例程式碼以 Python 語法為主,需對機器學習有基礎入門的認識,可參考課程試閱評估難易度是否合適。建議您能具備 Python 或其他程式語言初級以上的能力,或預習完成下列 Python 影片。

 

活動進度

課程期限為永久觀看,參加者可依照自己的學習狀況提交進度,達成馬拉松完成條件,將頒發完賽證書。 

 

學習方式

參加者至 Cupoy 官網閱讀教材、提交程式碼作業,在專屬問答社區與專家互動交流,解題遇到困難或是 AI 主題都可隨時向駐站專家提問討論。活動進行方式為線上,不會有實體授課,達成馬拉松完成條件與 Kaggle 競賽指定目標,將頒發完賽證書。

學員群組以及官方1對1客服問答

加入課後Line社群:https://bit.ly/3xmMHjT  (與1000多位學員一同互動)

官方Line 1對1問答https://lin.ee/z3jERm7