數(shù)據(jù)科學(xué)專業(yè)是近幾年新興的專業(yè),目前各個高校的研究生專業(yè)中都有涉及到,它是計算機科學(xué)下的一個具體的分支專業(yè)。
(資料圖)
這兩年數(shù)據(jù)科學(xué)專業(yè)可以說是越來越火了,近兩年有更多的院校開設(shè)了數(shù)據(jù)科學(xué)專業(yè)相關(guān)的課程,甚至被納入英國內(nèi)政部緊缺職業(yè)清單,該專業(yè)的畢業(yè)生無論是選擇在英國求職還是回國發(fā)展,都有著非常廣闊的就業(yè)前景。
什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)Data Science是從數(shù)據(jù)中提取知識的研究,關(guān)鍵是科學(xué)。起初叫"datalogy"。最初在1966年由Peter Naur提出,用來代替"計算機科學(xué)"。
數(shù)據(jù)科學(xué)集成了多種領(lǐng)域的不同元素,包括信號處理,數(shù)學(xué),概率模型技術(shù)和理論,機器學(xué)習(xí),計算機編程,統(tǒng)計學(xué),數(shù)據(jù)工程,模式識別和學(xué)習(xí),可視化,不確定性建模,數(shù)據(jù)倉庫,以及從數(shù)據(jù)中析取規(guī)律和產(chǎn)品的高性能計算。數(shù)據(jù)科學(xué)并不局限于大數(shù)據(jù),但是數(shù)據(jù)量的擴大誠然使得數(shù)據(jù)科學(xué)的地位越發(fā)重要。
數(shù)據(jù)科學(xué)的從業(yè)者被稱為數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家通過精深的專業(yè)知識在某些科學(xué)學(xué)科解決復(fù)雜的數(shù)據(jù)問題。不遠(yuǎn)的將來,數(shù)據(jù)科學(xué)家們需要精通一門、兩門甚至多門學(xué)科,同時使用數(shù)學(xué),統(tǒng)計學(xué)和計算機科學(xué)的生產(chǎn)要素展開工作。所以數(shù)據(jù)科學(xué)家就如同一個team。
數(shù)據(jù)科學(xué)使用到數(shù)學(xué)、統(tǒng)計、信息科學(xué)和計算機科學(xué)等各個學(xué)科的技術(shù)和理論,特別是以下分支:機器學(xué)習(xí)、分類、聚類分析、數(shù)據(jù)挖掘、數(shù)據(jù)庫和可視化。大多數(shù)院校的Data Science屬于STEM學(xué)科。
數(shù)據(jù)科學(xué)主要研究內(nèi)容有以下三類
Predictive Analytics
分析數(shù)據(jù)來預(yù)測未來可能發(fā)生的事情
Descriptive Analytics
分析數(shù)據(jù)找出過去事件的特征和正在發(fā)生事件的趨勢
Prescriptive Analytics
分析數(shù)據(jù)來找出最佳措施、取得最優(yōu)化的結(jié)果
海外專業(yè)分支與課程設(shè)置
大數(shù)據(jù)專業(yè)是橫跨數(shù)學(xué)、計算機、金融還有商科等專業(yè)的交叉學(xué)科,目前英美等國家開設(shè)的大數(shù)據(jù)專業(yè)方向主要是四個方向:
1、數(shù)據(jù)科學(xué) (Data Science)
將數(shù)學(xué)和統(tǒng)計學(xué)課程作為核心,搭配以SQL和Python等編程技能課程,包括數(shù)據(jù)架構(gòu),到計算機工程,再到編程等;
2、商業(yè)分析 (Business Analytics)
商業(yè)分析碩士學(xué)位專注于數(shù)據(jù)應(yīng)用,以研究消費者、市場和世界經(jīng)濟趨勢;
3、信息系統(tǒng) (Information Systems)
大多數(shù)信息系統(tǒng)是基于現(xiàn)成的計算機架構(gòu)、語言和系統(tǒng)進行的信息收集、組織和整合的工作,信息系統(tǒng)的碩士學(xué)位課程通常面向?qū)ι虡I(yè)環(huán)境中的技術(shù)管理崗位
4、運籌學(xué)和相關(guān)工程學(xué) (Operations Research)
該專業(yè)的學(xué)習(xí)采用如數(shù)學(xué)建模,統(tǒng)計分析和數(shù)學(xué)優(yōu)化,運算研究來為復(fù)雜的決策問題找到最優(yōu)的解決方案;
商業(yè)分析從它的名字就可以看出來,這個專業(yè)會包含一些商科類型的課程,比如說管理課,經(jīng)濟學(xué)課等等。數(shù)據(jù)科學(xué)主要針對的就是統(tǒng)計、數(shù)據(jù)科學(xué)這些方向的。機器學(xué)習(xí)就是我們?nèi)藢W(xué)習(xí)到東西之后,需要讓機器學(xué)習(xí),并幫我們?nèi)ヌ幚泶罅康臄?shù)據(jù)等等。
這四個專業(yè)的必修課內(nèi)容都是相似的,主要學(xué)data science、統(tǒng)計學(xué)、還有一些教數(shù)據(jù)可視化處理的課程。其他的選修課就大同小異,就算是相同的專業(yè),在不同的院校開設(shè)的選修課也是會有區(qū)別的,大家可以根據(jù)自己的喜好或者職業(yè)發(fā)展方向去進行選修課的選擇。
上圖很直觀的表達了數(shù)據(jù)科學(xué)作為一門交叉學(xué)科的知識結(jié)構(gòu)組成,也符合了大部分項目的課程設(shè)置。數(shù)據(jù)科學(xué)是在數(shù)據(jù)基礎(chǔ)之上,運用計算機和數(shù)理統(tǒng)計的知識,在某一個具體領(lǐng)域(商業(yè)、IT、醫(yī)療等)解決具體問題。
核心課程
數(shù)據(jù)科學(xué)中的計算機系統(tǒng)
Computer Systems for Data Science
數(shù)據(jù)科學(xué)中的機器學(xué)習(xí)
Machine Learning for Data Science
數(shù)據(jù)科學(xué)中的算法
Algorithms for Data Science
數(shù)據(jù)科學(xué)中的統(tǒng)計與概率論
Probability and Statistics for Data Science
探索性數(shù)據(jù)分析和可視化
Exploratory Data Analysis and Visualization
統(tǒng)計推理與建模
Statistical Inteference and Modeling
數(shù)據(jù)科學(xué)大作業(yè)
Data Science Capstone and Ethics
海外申請
數(shù)據(jù)科學(xué)專業(yè)是近幾年才剛剛新興的專業(yè),本科階段少有開設(shè),所以它招生的專業(yè)范圍是非常廣,比如計算機、統(tǒng)計學(xué)、數(shù)學(xué)甚至經(jīng)濟學(xué)、工商管理、會計學(xué)、市場營銷等等,也都是可以去申請數(shù)據(jù)科學(xué)專業(yè)的。
如果本科專業(yè)是數(shù)學(xué)、計算機科學(xué)等相關(guān)度高的專業(yè),在申請時大家要好好在自己的相關(guān)課程、研究經(jīng)歷上做功課。如果本科專業(yè)相關(guān)度低,就需要通過非學(xué)校經(jīng)歷,比如網(wǎng)絡(luò)課程、編程競賽、科研經(jīng)歷等來證明你的能力。或本科階段的選課建議需要涉及計算機編程的課程,比如JAVA、Python,還有統(tǒng)計學(xué),數(shù)學(xué)等,不需精通但建議多少要了解一些。
前期留學(xué)準(zhǔn)備
主要是分為硬實力和軟實力兩個部分
硬實力一般指的是三維成績以及一些能夠量化的標(biāo)準(zhǔn):
英語:去學(xué)校官網(wǎng)查詢雅思或者托福要求,語言成績是硬性標(biāo)準(zhǔn),要重視起來提前做好準(zhǔn)備。
GPA:是申請中的重點,data science 是math stats和computer science的結(jié)合,有涉及這兩個學(xué)科的課程且成績比較好,對于申請是非常有幫助的。
軟實力包括推薦信、文書、ps以及科研實習(xí)經(jīng)歷等:
推薦信:大部分的學(xué)校都至少需要兩到三封推薦信,你的任課老師,實驗室做科研的教授,你實習(xí)的上司,都可以是推薦信的來源。這里有個公式:大牛強推>寫得出彩的強推>其他;可以看出推薦信最重要的是推薦人的地位和可信度;
實習(xí):實習(xí)的關(guān)鍵不在多在于“精”,申請專業(yè)相契合的實習(xí)比公司名頭重要的多;
科研:高含金量的科研經(jīng)歷,一定是錄取的加分項,能夠讓學(xué)校清楚的認(rèn)識到你對這門專業(yè)的熱情、以及你所具備的學(xué)習(xí)這門專業(yè)的能力,也是能夠幫助你從眾多同質(zhì)化申請學(xué)生當(dāng)中脫穎而出的關(guān)鍵!
在審核完你的申請材料之后,各種硬件條件都過關(guān)的話,有的學(xué)校是會有研究生面試的,可能會問到編程知識,如果你答不上來,那大概率是不會被錄取的。
數(shù)據(jù)科學(xué)的就業(yè)方向
在領(lǐng)英的就業(yè)報告中,數(shù)據(jù)科學(xué)被列為最近三年內(nèi)最具前景的職業(yè)之一。主要的就業(yè)方向是在政府?dāng)?shù)據(jù)中心、金融機構(gòu)、互聯(lián)網(wǎng)企業(yè)等單位從事大數(shù)據(jù)分析師、大數(shù)據(jù)應(yīng)用開發(fā)工程師等工作。
1、Data Scientist 數(shù)據(jù)科學(xué)家
以高級建模為主,需要較深的領(lǐng)域知識,也包含算法到產(chǎn)品的轉(zhuǎn)化;
2、Data Engineer 數(shù)據(jù)(庫)工程師
以開發(fā)、管理和維護數(shù)據(jù)庫為主,也包括優(yōu)化數(shù)據(jù)獲取流程,搭建數(shù)據(jù)庫環(huán)境等工作;
3、Machine Learning Engineer 機器學(xué)習(xí)工程師
以開發(fā)機器學(xué)習(xí)系統(tǒng)并解決實際產(chǎn)品問題為主,對編程能力有較高要求;
4、Data Analyst 數(shù)據(jù)分析師
以數(shù)據(jù)清理/分析為主,為數(shù)據(jù)驅(qū)動的決策服務(wù)。需要掌握金融/運籌/經(jīng)濟/市場等知識;