數據科學
此條目需要擴充。 (2013年7月15日) |
上級分類 | 科學 |
---|---|
研究對象 | 數據 |
從業者 | 數據科學家、data architect |
使用 | 統計學、應用數學、計算機科學 |
Stack Exchange子網站 | https://datascience.stackexchange.com |
機器學習與資料探勘 |
---|
資料科學(英語:data science)又稱數據科學,是一門利用數據(數據)學習知識的學科,其目標是透過從數據中提取出有價值的部分來生產數據產品[1],學科範圍涵蓋了:數據取得、數據處理、數據分析等過程,舉凡與數據有關的科學均屬數據科學。
數據科學結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。數據科學透過運用各種相關的數據來幫助非專業人士理解問題。 數據科學技術可以幫助我們如何正確的處理數據並協助我們在生物學、社會科學、人類學等領域進行研究調研。此外,數據科學也對商業競爭有極大的幫助[2]。
美國國家標準技術研究所於2015年發表七卷大數據參考框架(NIST Big Data Reference Architecture,NBDRA),於第一卷定義篇中將數據科學定為在理論科學、實驗科學和計算科學之後的第四科學科學[3][4]。
數據科學家是把統計學知識和計算機程式設計知識相結合,並將其用於深度分析數據來獲得數據見解的職業[5]。
歷史
1960年代,彼得·諾爾就首次提議要用「數據科學(data science、Datalogy)」來替代「計算機科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。
1997年11月,吳建福 發表了題為「統計=數據科學?」的就任演講,[6] 因為他被任命為密歇根大學的 H. C.卡弗教授。[7] 在這次演講中,他將統計工作描述為數據收集、數據建模和分析以及決策制定的三部曲。 在他的結論中,他開創了「數據科學」(而非「計算機科學」)這個術語的現代用法,並提倡將統計學重命名為數據科學,而統計學家則應重命名為數據科學家。[6] 後來,他發表了題為「統計=數據科學?」的演講,作為他1998年的首個 P. C. 馬哈拉諾比斯紀念演講。[8] 這些講座是為了紀念印度科學家、統計學家和印度統計學院 創始人P. C. 馬哈拉諾比斯 。
2001年,William S. Cleveland 提議將其設立為一個新的學科,吸收「計算在數據方面取得的進展」作為統計學的延伸。《Data Science Journal》及《The Journal of Data Science》分別於2002年與2003年發行;2005年9月,美國國家科學基金會發表了《長存的數碼數據收集:使21世紀的研究與教育成為可能》,文中將數據科學家定義為「信息與計算機科學家,數據庫與軟件工程師與程序員,跨學科專家,保管員以及專業注釋者,圖書館員,檔案館員和其他人員,這些人對數碼數據收集的成功管理至關重要。」[9] 2008年 Jeff Hamerbatcher 與 DJ Patil circa 分別在 Facebook、LinkedIn 領導全球第一支數據科學團隊,至此數據科學越來越被廣泛流行,並應用到公共衛生、市場、金融、社會等各個領域。
數據科學家
數據科學家這個職位的頭銜則是1997年吳建福的報告 "Statistics = Data Science?"中首次提及[來源請求]的,他認為數據科學家就是能夠從大型數據集中析取出數據,並進行統計推斷的統計學家。
2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數字化數據之力》的報告,Sadkowsky 從中了解到「數據科學家」這個詞,認為該詞是自己所從事工作的最好描述。
2012年,數據科學家被《哈佛商業評論》稱為《二十一世紀最性感的職業》[10]後,數據科學逐漸成為一個時髦術語(Buzzword)。
2017年,由資料科學活動而衍生的資料經濟,也開始被關注。與資訊經濟不同的是,資訊經濟是由編譯過的資料而產生經濟價值,而資料經濟的資料價值則源自於資料本身,它可以不斷的被編譯而產生多樣化的價值。
數據科學家在美歐的需求巨大,麥肯錫公司宣布全世界上此職業人才短缺超過二十萬工人[11]。
參考文獻
- ^ Dhar, Vasant. Data Science and Prediction. [2014-07-14]. (原始內容存檔於2014-11-09).
- ^ AOL staff. Data Scientist: The Hottest Job You Haven't Heard Of. [2014-07-14]. (原始內容存檔於2014-07-17).
- ^ 存档副本 (PDF). [2022-06-07]. (原始內容存檔 (PDF)於2022-06-09).
- ^ 大數據, 2017, 3(4): 11-19 doi: 10.11959/j.issn.2096-0271.2017037
- ^ Davenport, Thomas H.; Patil, D. J. Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. 2012-10-01 [2017-06-17]. ISSN 0017-8012. (原始內容存檔於2017-06-14).
- ^ 6.0 6.1 Wu, C. F. J. (1997). Statistics = Data Science? (PDF). [9 October 2014]. (原始內容存檔 (PDF)於2014-10-14).
- ^ Identity of statistics in science examined. The University Records, 9 November 1997, The University of Michigan. [12 August 2013]. (原始內容存檔於2013-10-29).
- ^ P.C. Mahalanobis Memorial Lectures, 7th series. P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. [18 Jul 2017]. (原始內容存檔於29 October 2013).
- ^ Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century. (PDF). National Science Board, September 2005, National Science Foundation. [19 January 2020]. (原始內容存檔 (PDF)於2017-05-05).
- ^ Data Scientist: The Sexiest Job of the 21st Century. [2017-06-17]. (原始內容存檔於2017-06-14).
- ^ Big data: The next frontier for innovation, competition, and productivity. [2017-06-17]. (原始內容存檔於2017-06-19).