在這個資訊爆炸的時代,資料收集是資料科學中的基礎技能,如何高效的收集目標資料是 AI 工程師必修的課題。能善用「網路爬蟲」技術的人,可以更有效、精確地從網路自動化地收集海量資訊,為後續機器學習的資料集舖路。本課程將讓你學習如何打造自動高效的爬蟲程式,幫你邁出資料科學成功的第一步。
本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術,到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術,最後是整合所學的實務專題,共包括6大學習里程碑,幫助你掌握Python網路爬蟲的重要基礎知識與實戰能力。
◤6大學習里程碑◢
1- 爬蟲基礎知識
介紹基本的Http網路通訊原理與HTML內容格式,搭配程式自動化收集資料
2- 靜態網頁爬蟲技術
拆解靜態網頁的規格與原理,使用Python爬蟲解析HTML / CSS / Javascript並收集靜態網頁中特定的資料
3- 動態網頁爬蟲技術
以使用Selenium + BeautifulSoup 模擬瀏覽器執行動態網頁,解析收集各種動態網頁生成的特定資料,並學習用瀏灠器開發者工具解析網頁內容的特徵
4- Scrapy 網站爬蟲框架
面對網站級別的多網頁爬蟲需求,學習用Scrapy建立爬蟲策略與爬蟲框架
5- 進階爬蟲技術
有許多網站並非完全公開,本章將教你如何使用爬蟲進階技巧克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率。
◤8個爬蟲實務專題◢
1- ETTODAY 靜態爬蟲實作練習
2- PTT(批踢踢)網路爬蟲實作練習
3- Wiki爬蟲實作練習
4- Yahoo! 電影網頁實作練習
5- 金融資訊網頁爬蟲實作練習
6- 空氣污染網站爬蟲實作練習
7- 東森新聞雲網站爬蟲實作練習
8- 104人力銀行網站爬蟲實作練習
9- 期末綜合爬蟲實戰練習
課程搭配線上助教講解服務,專家與助教陪你升級打怪,只要你有心,不怕學不會。
一圖勝千言,資訊圖表能夠讓人更快速的理解。本次課程搭配資料視覺化實戰工作坊,手把手教你將巨量無序的資料整理成各種清楚簡潔的圖表,讓你快速將網路爬蟲搜集的大量資料圖表化,洞察數據背後的故事。
即日起報名本課程的用戶,即可免費獲得價值800元的「2小時就上手!用Pyecharts做出可互動的酷炫圖表」線上工作坊,教你用 Python 玩轉資料,繪製各種酷炫的資料圖表,限量150名。
參加資格 / 預讀資料
課程範例程式碼以 Python 語法為主,需對機器學習有基礎入門的認識,可參考課程試閱評估難易度是否合適。建議您能具備 Python 或其他程式語言初級以上的能力,或預習完成下列 Python 影片。
活動進度
課程期限為永久觀看,參加者可依照自己的學習狀況提交進度,達成馬拉松完成條件,將頒發完賽證書。
學習方式
參加者至 Cupoy 官網閱讀教材、提交程式碼作業,在專屬問答社區與專家互動交流,解題遇到困難或是 AI 主題都可隨時向駐站專家提問討論。活動進行方式為線上,不會有實體授課,達成馬拉松完成條件與 Kaggle 競賽指定目標,將頒發完賽證書。
加入課後Line社群:https://bit.ly/3xmMHjT (與1000多位學員一同互動)
官方Line 1對1問答: https://lin.ee/z3jERm7