授課科目名稱:巨量資料分析 Big Data Analysis [105學年度(下): 2017.02~2017.06]

授課教師: 吳漢銘 (臺北大學 統計系 副教授), 研究室: 商館大樓七樓 7F22室 分機: 66773。

Office Hour (待公告)E-mail: hmwu@gm.ntpu.edu.tw

應修系級: 統計所碩士班。必/選修: 選修。學分數:3 學分 3小時

上課時間地點:  五/ 02~04, 商7F28電腦教室 改「資1F-14」教室。

實習課時間:  (待公告)。助教: (待公告)

公告

  • 置頂: [2016/12/15] 出缺席、考試成績、學期成績紀錄。(最近更新: 2016/12/15) 
     
  • [2017/05/18] 請同學上「數位學苑」填寫問卷「學生自我評鑑調查」,填答期間2017/06/05(一)~25(日)。
  • [2017/05/16] 巨量資料分析期末報告注意事項
  • [2017/05/15] 上網填報分組: 隊名及組員
  • [2017/04/14] 新增「Kyper專區」、期末報告「資料專區」如下。請同學即早分好組別(最多3人一組),並取一隊名。
  • [2017/04/06] 作業2,上傳期限: 2017/04/17, 24:00。
  • [2017/03/29] 作業1,上傳期限: 2017/04/02, 24:00。
  • [2017/03/09 ] 3/24(五)第一次小考: 範圍: Lecture 1&2 (open book)。可自帶筆電。
  • [2017/02/23] 上課練習資料
  • [2016/12/27] 大學部同學不建議選修本課程!
  • [2016/12/27] 給選修本課程之同學: 若同學R語言不熟,請利用寒假自行練習以下部份:  http://www.hmwu.idv.tw/index.php/r-software
        (1) R語言統計計算環境介紹; (2) R程式語言的基礎: 物件 (3) 資料的輸入與輸出 (資料檔); (4) 編寫R函式; (5) R程式設計風格及範例講解。
  • [2016/12/14] 開學後第二週,確定選課之同學請加入「105-2-巨量資料分析」FB聊天群組。第三週起,進電腦教室上課,請固定座位入坐。
  • [2016/12/14] 美商數據新創公司 Kyper Data Technologies介紹:
  • [2016/12/14] 修習本課程的同學,需要有R語言的基礎,且有勇於接受挑戰的信心。(因電腦教室容量限制,本課程限修人數為20人)
  • [2016/12/14] 校訂教學計畫表。

 

Kyper專區

資料專區(隨時更新)

 

 

教學目的本課程分為兩部份。第一部份由開課教師授課,以R軟體工具,讓學生實際進行資料處理及統計分析,期望學生能從資料中了解問題、發掘問題,並擷取有用的資訊以解決問題。針對巨量資料分析,會以相關技術(Hadoop/Spark)及服務平台(AWS/MSAzure)為輔助。課程第二部份,由美商數據新創公司(Kyper Data Technologies)負責講授一系列業界資料實務分析方法及技術,期望學生在學期間能有統計實務應用的訓練。(註: Kyper 公司可能會使用Python為分析工具。)

 

教學內容及進度(依實際教學進度隨時修正!!)

週次 月/日 內容

小考日期及範圍/備註

第一週 02/24

Course Introduction, Programming with R,網路爬蟲(Crawler) using R,Import/Export data from SQL database

 [Week01-Lecture]
第二週 03/03

Data Manipulation with R: 資料處理與篩選

 [Week02-Lecture]
第三週 03/10

High-performance computing with R (including parallel programming (rmpi), pdbR package)

Data Manipulation with R: 資料處理與篩選

 [Week03-Lecture]
第四週 03/17(五):
大數據分析研討會

Exploratory Data Analysis and Data visualization
[停課一次,04/21補課]

第五週 03/24

Data mining (including regression, clustering, classification, assocation rule)
Data Manipulation with R: 資料處理與篩選

小考(1): Lecture 1 & 2; 下載考卷
第六週 03/31(五) 補放假 (2016/10/29校慶)

Data mining (including regression, clustering, classification, assocation rule)
[放假一次]

 
第七週 04/07

Hadoop/MapReduce (RHadoop), Spark (SparkR)
Data Manipulation with R: 遺失值及離群值處理/資料轉換; Exploratory Data Analysis

小考(2): data mining
第八週 04/14

Amazon Web Services/Microsoft Azure, Jupyter+R

 
第九週 04/21 補課
補03/17(五)
期中考試週 (本週要補課,上正課)

期中考順延一週

第十週 04/28: 經濟與統計大趨勢學術研討會
期中考(Open Book, 上機考)

本週期中考: 範圍: Data Manipulation with R& EDA; [下載考卷]

第十一週 05/05

Kyper: Kaggle: Your Home for Data Science

巨量資料分析期末專題介紹

 
第十二週 05/12

Kyper: Case studies: image recognition

 
第十三週 05/19

Kyper: Case studies: security/finance

 
第十四週 05/26

Kyper: Case studies: prediction of forest fires

 
第十五週 06/02

Kyper: Case studies: predicting price movement in market microstructure

第十六週 06/09

Kyper: Case studies: fault detection

 
第十七週 06/16

期末上台報告 (I), student final project

 
第十八週 06/23(五) 停課
南區統計研討會
期末上台報告 (II), student final project

  

教材課本: 教師自編講義。[http://www.hmwu.idv.tw/index.php/r-software]

主要參考資料/書目

  • [Data Science]
    • Hadley Wickham (Author), Garrett Grolemund, R for Data Science: Visualize, Model, Transform, Tidy, and Import Data, O'Reilly Media; 1 edition (December 25, 2016)
    • Raja B. Koushik, Sharan Kumar Ravindran, R Data Science Essentials, Packt Publishing. (January 13, 2016)
    • Deborah Nolan, Duncan Temple Lang, Data Science in R: A Case Studies Approach to Computational Reasoning and Problem Solving (100 Cases), Chapman and Hall/CRC; 2015 edition (April 21, 2015)
    • Nina Zumel, John Mount, Practical Data Science with R, Publisher: Manning; 1st edition (April 13, 2014)
  • [Big Data Analysis]
    • Simon Walkowiak, Big Data Analytics with R, Packt Publishing. (July 29, 2016)
    • Vignesh Prajapati, Big Data Analytics with R and Hadoop, Packt Publishing (November 25, 2013)
    • Mark Hornick, Tom Plunkett, Using R to Unlock the Value of Big Data: Big Data Analytics with Oracle R Enterprise and Oracle R Connector for Hadoop, McGraw-Hill Education; 1 edition (June 27, 2013)
    • Bradley Boehmke, Data Wrangling with R (Use R!), Springer; 1st ed. 2016 edition (December 16, 2016)
  • [Data Mining]
    • RDataMining.com: R and Data: http://www.rdatamining.com/ 
    • Pawel Cichosz, 2015, Data Mining Algorithms: Explained Using R, Wiley; 1 edition (January 27, 2015).
    • Yanchang Zhao, Yonghua Cen, 2013, Data Mining Applications with R, Academic Press; 1 edition (December 26, 2013)
    • 黄文, 王正林, 2014, 利用R語言打通大數據的經脈, 出版社:佳魁資訊, 2014/12/26.


       
       
       
        


成績考核方式:

  • 平時小考成績(第一部份):20 % (共2次小考,各佔 10%分)。(Myabe take home)
  • 期中考成績:30 % (資料分析) 。
  • 平時成績(第二部份) + 期末考專案成績:50 % (上台報告) 。
  • 調分參考: 點名,上課表現,學習態度等等。(個人原因一概不予調分)。
     

備註 (上課相關)

  • 課堂以投影片(電腦_投影機)講授為主。上課前請先列印講義或將講義PDF存到個人USB隨身碟。
  • 缺課、曠課相關規定,依校規辦理。
  • 上課以「互相尊重」為最高原則並盡到「告知老師」的義務。
  • 上課請認真聽講並動腦思考。
  • 上課: (1) 可小聲討論。 (2) 可上廁所安靜去回。 (3) 可飲食。(但請一定要維護教室整潔)(電腦教室不可飲食) (4) 可帶筆電自行練習。
  • 上課: (1) 手機請關靜音震動,不可「玩」手機。(2) 不可看其它書籍或上與課程無關的網站(尤其是FB)。(3) 不可聊天、睡覺、打牌、抽煙等與學習本學科無關之事。
  • 四不一要: 「上課不聊天,睡覺不趴著,手機不要滑,考試不作弊,要認真。」
  • 課業上的問題,請同學互相討論後,再去問助教。 若有其它建議或問題反應,請e-mail老師FB留言
  • 上述「教學內容及進度」會依實際教學狀況修正。
  • 請隨時參閱課程網站(習題、公告、討論): http://www.hmwu.idv.tw

 

備註 (考試、成績相關)

  • 小考時間為星期五。小考無特殊原因不得補考。(特殊原因請先報告老師)。
  • 考試作弊同學當次及日後之任何試卷及作業,老師全部不予批改。情節重大報校處理。
  • 對成績有疑問,請於當次成績公佈後一星期內連絡老師。
  • 出席點名為加分項目,但一學期之出席次數需達到點名次數2/3以上始得加分。