01、专业是什么?
基础概念与核心内容介绍
数据科学(Data Science 简称DS)结合了应用数学,统计学,模式识别,机器学习,数据可视化,数据库以及高性能计算的交叉学科,目标是从结构化与非结构化数据中提取有价值的信息与洞见。通过挖掘数据,处理数据,分析数据从而得到有用信息的技术和研究。是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它融合了数学建模、编程实现、算法设计和数据可视化,是当前各行业数字化转型的核心支柱之一。
与其他专业的区别:
- 与商业分析(BA)相比:DS更强调底层模型构建与算法优化,对于编程能力的要求也相对更高,使用Python/R,SQL,Tableau,MATLAB等编程语言和软件是DS家常便饭;BA更偏向解决具体商业问题,强调数据在企业决策中的应用。
- 与计算机科学(CS)相比:计算机科学主要聚焦于计算的理论基础、算法设计、软件开发以及计算机系统和技术背后的深层次原理。 相比之下,数据科学主要聚焦于从利用计算机科学、统计等不同学科的知识和内容,从数据中挖掘出有价值的信息。
- 与工业工程与运筹学(IEOR)相比:IEOR是一个结合了工程、数学、统计等多个领域的复合型专业。虽然两者都重视建模与分析,但IEOR研究的模型往往以找到优为解为目标,而DS更关注数据和模型能够带来的insights和企业决策信息。
项目归属院系差异:
- 工程学院开设的DS项目技术性更强,偏向计算与系统的实现,与计算机科学关系密切(代表项目:UPenn MSE DS, Stanford MSE DS等);
- 统计学院开设的DS项目更强调数学基础、重视统计建模,通常来说更偏理论和学术研究导向(代表项目Yale Stats and DS, Stanford Stats and DS等);
- 另外一类DS项目开设在独立的数据科学学院下,这一类的数据科学项目招生强调多元化,因此对于申请者的背景包容度高(代表项目UCSD DS, UVA MSDS等);
- 最后还有少数商学院或信息学院开设的DS或DA项目,则更强调数据工具与行业结合,适合跨专业背景申请(代表项目CMU BIDA等)。
02、能做什么?
职业路径与发展方向
数据科学具有高度的职业灵活性,是就业市场极具竞争力的领域之一,适用的领域包括互联网、金融、科技、生物医药、零售、制造等多个行业。不过同时,我们也需要说明一点:DS是一个没有行业属性的方向。这个特征使得申请人可以在多个不同就业行业与方向中做选择,极大地提升了就业选择,但同时也意味着各位同学需要尽早找到适合自己的数据科学分支或领域。
常见职位包括:
- Data Scientist(数据科学家)
- Machine Learning Engineer(机器学习工程师)
- Data Analyst(数据分析师)
- NLP Engineer(自然语言处理工程师)
- Research Scientist(研究员)
- Quantitative Analyst(量化分析师)
- Business Analyst(商业分析师)
进阶路径包括:
- 技术方向:算法研究、AI产品研发、科研岗位(PhD/研究机构)
- 管理方向:数据团队主管、技术产品经理、CTO技术管理岗
- 跨界方向:创业、战略分析、数据驱动运营等
核心技能包括:
- 数据清洗与分析
- 模型构建与优化(机器学习,深度学习等)
- 编程能力(如Python, R, SQL, Tableau, MATLAB等)
- 敏锐地发现商业问题并通过数据给出合理的解决方案和信息
推荐证书/竞赛:
- Google Professional Data Engineer/Google Analytics Certificate
- AWS Data Analytics Certificate
- Microsoft Azure Data Scientist Associate
- Kaggle Data-related Competitions
03、学什么?
项目设置与课程架构
数据科学专业的课程体系通常围绕两个主要“支柱”来构建:
- 编程类课程:Python/R编程、SQL数据库、机器学习、深度学习、云计算、大数据处理(Hadoop/Spark)等;
- 数学类课程:包括线性代数、概率论与统计、优化方法、算法设计与分析、时间序列分析等。
以哈佛数据科学硕士(Harvard Master's in Data Science)举例,核心课程包括两节数据科学专业课程、一节机器学习课程、一节统计类课程以及一节计算机类课程:
DS/ML类课程的设置上有基础数据科学,进阶数据科学以及机器学习三节,这三节课程会作为该项目学生的核心课程;
统计课程的设置上可以在5节课中选择一节:统计推断、线性模型、广义线性模型、进阶统计推断、线性与广义线性模型;
计算机类课程则是4节课中选择一节:进阶数据科学实战课、计算科学数学模型、计算科学基础、统计学计算工具。
除了这三个主要方向的课程学习以及一些选修课外,学校还要求Thesis track的学生自己选择一个研究主题,完成毕业论文(Thesis and Independent Research)。
04、去哪读?
院校项目与地域分布
数据科学硕士项目分布广泛,主要集中在美国、英国、香港、新加坡等地区:
美国:顶尖项目扎堆,就业机会丰富
- 斯坦福大学- MS in Computational and Mathematical Engineering - DS Track
- 斯坦福大学-M.S. in Statistics: Data Science
- 哈佛大学- MS in Data Science
- 宾夕法尼亚大学- MSE in Data Science
- 耶鲁大学- MS in Statistics and Data Science
- 西北大学- MS in Machine Learning and Data Science
- 芝加哥大学- MS in Applied Data Science
- 康奈尔大学- Master of Professional Studies inApplied Statistics: Data Science
- 哥伦比亚大学-MS in Data Science
- 卡耐基梅隆大学-Master of Computational Data Science
- 卡耐基梅隆大学- MS in Machine Learning
- 密歇根安娜堡分校- MS in Data Science
- 南加大- MS in Applied Data Science
项目设置多在工程/统计/信息学院下,强调数学能力和编程能力
绝大多数DS项目都是STEM-Designated,因此OPT最长达36个月,适合求职留美
美国DS项目地理分布图:
英国:一年制高强度紧凑学习
- 牛津大学-MSc in Social Data Science
- 伦敦政治经济学院(LSE)- MSc Data Science
- 伦敦大学学院(UCL)-MSc Data Science and Machine Learning
新加坡/香港:亚洲枢纽+就业跳板
- 新加坡国立大学-MSc in Data Science and Machine Learning
- 南洋理工大学- MSc in Data Science
- 香港大学- Master of Data Science
- 香港港中文大学-MSc in Data Science and Business Statistics
- 香港科技大学- MSc in Big Data Technology
选校建议:
- 看项目重点:偏研究、实战还是行业导向
- 看录取偏好:数学背景 vs 工程背景
- 看地理资源:就业网络、企业合作项目多的地区更适合求职
05、适合谁?
典型申请人画像与背景要求
数据科学因为其广泛的职业出路和职业年薪,一直是申请的热门项目,顶尖项目每年录取人数较少。DS项目总体来讲对于学生的绩点(特别是量化课程的成绩)和科研/竞赛经历要求很高。
- 建议专业:数学,统计,计算机等理工科背景的同学申请
- 先修课程:建议学生在本科期间选择以下课程或掌握以下技能:
- 数学类:Probability and Statistics, Mathematical Analysis, Math Modelling, Optimization
- 计算机类:Machine Learning, Algorithm,Database and Data System
- 编程技能:R, Python, SAS, Matlab, SQL
- 经济类:Time Series, Predictive Modelling,Stochastic Process
- 其他背景要求:具备一定的科研/竞赛经历,最好是在本科期间有发表过论文/完整跟完一个科研项目组/有过Kaggle等类似编程竞赛经历/在GitHub上有多个project experience
- 建议项目时长:对于编程背景稍弱的同学,建议选择16-20个月(1.5-2年)的项目,特别是包含 Capstone或Internship的项目。这样学生可以通过研究生期间的课程磨练量化/编程能力的同时投递一些暑期实习,为就业做好准备、打好基础,并增加实习获得return offer的几率。
跨专业申请怎么准备?
对于”DS能否跨专业申请?“这个问题,需要看学生的具体学术背景。尽管大多数的DS项目不需要任何的先修课程,但是在录取时,学校还是会偏好数理/计算机背景且编程能力优秀的候选人。总的来说,一些量化课程较少的专业,如商科、经济等比较难跨专业申请DS方向。
而像数学、统计、CS等理工科背景的跨专业申请人需要提前补充一些DS相关课程,如:Machine Learning, Data Base, Python, SQL等,同时也需要补充数据相关的科研或实习经历。毕竟,除了GPA和标化成绩以外,用我们的学术、科研、实习背景讲出一个生动、有说服力的故事才是打动招生官的关键所在。
06、申请难吗?
录取标准与策略建议
- GPA:顶尖DS项目录取GPA普遍在3.8+以上,但是丰富的科研经历或是竞赛经历可以弥补一些GPA上的弱点。
- GRE:录取的GRE分数普遍在325+,quantitative项165+。疫情之后的几年很多美国研究生项目对于GRE成绩都不再强制要求递交,然而一个优秀的GRE成绩往往能够帮助申请人锦上添花或是弥补缺陷。
- 推荐信:推荐人的选择上一般参考以下几个标准:
- 与学生关系紧密的导师或教授:在他们从personal level更深度的了解学生之后,往往能写出更出彩、生动、有说服力的推荐信
- 在推荐人的课上取得优秀成绩的:一般来说教授都会很愿意给成绩好的同学写推荐信
- 在推荐人的科研项目上取得成就的:假设我们的推荐人是一位科研导师,而学生在科研过程中发表了论文或者取得了其他优异的成果,这封推荐信也会更有含金量和份量
- PS/Essay:在撰写数据科学方向的文书时,找到学生的闪光点,或是与众不同的点是至关重要的。近些年来,随着DS这个方向的研究生申请越来越热门、竞争越来越激烈,也导致很多文书会有同质化的现象。举个例子来说,没有招生官会被这样主题的文书所打动:“我很热爱数据科学,因为我从小就对数据/数字特别感兴趣、敏感。在大学期间我进一步学习了Data相关的课程,现在我的职业目标是成为一名数据科学家”。这样的文书本身也没有错,但是问题就在于这样的文书每个申请季招生官会阅读几千甚至上万篇。而在DS这种热门的专业中,想要写出一篇出彩的文书,则需要我们发现学生身上的亮点。
机构建议:
- 数据科学专业的申请人需要尽快确定自己的specific track or domain:找到一个具体的分支不但会帮助同学们在申请中确定一个有说服力的故事线,也会对大家未来进入就业市场找工作起到积极的作用
- 尽早规划自己的背景提升:数据科学专业在申请的过程中想要收获心仪的offer,除了保持优秀的GPA和写出与众不同的文书以外还有一个重要的因素——综合背景(包括科研/实习/竞赛等),而综合背景并非一个暑假或是几个月就可以补充完整的,这就需要我们在大一或者大二就有意识地提升自己的背景
- 找到属于自己的“亮点” or "X-Factor":精准地找到自己申请中的亮点或是与众不同的地方,并巧妙的结合在文书中能够帮助大家在如今“同质化”居多的申请人中脱颖而出
- 顶级DS项目竞争激烈,建议尽早准备,积累项目与实战经验。即使是CS或数学背景的申请者,也需证明在“数据理解+实际建模”上的能力。
07、关于数据科学专业的FAQ
Q1
请推荐一下数据科学和统计专业哪些学校比较好?威斯康星麦蒂逊这个学校这两个专业怎么样?想以后在美国找工作,这个学校推荐吗?您还推荐哪几个学校?
威斯康星麦迪逊的统计系成立于1960年,在US World News Report中的排名是第13,统计系有很多知名中国教授,中国学生也很多。统计硕士实践性很强,难度也比较大,对语言能力要求比较高,尤其是对学生计算机能力要求非常高,几乎所有的课程都以编程为主,成绩特别优秀的有机会留下了读博。数据科学硕士是2020年开设的项目,是统计系和计算机科学的联合项目,由统计系管理。统计硕士和数据科学硕士这两个项目实践性都很强,如果能够利用好学校的资源,加上自己能够主动做networking的话,是可以在美国找到不错的工作的。之前的毕业生会去到 Google, John Deere, By Green Bay Packaging, Volvo Cars, and Amazon 这样的企业。有数据科学和统计专业的学校比较多,很多数据科学硕士项目是统计系近几年开设的新项目,当然有些数据科学是开在和统计系不同学院下面的。常申请的数据科学和统计学校有哥大,耶鲁,约翰霍普金斯,杜克,西北,伯克利,UCLA, 密歇根大学,南加大。
Q2
应用数学,统计学,数据科学这三个专业有什么不同?
这是一个非常宽泛的问题。从这三个专业词汇所涵盖的内容上来说,应用数学是最多的,凡是研究数学理论如何应用和服务于解决现实问题的都算是应用数学领域,比如运筹学和优化,随机过程和控制论,计算生物学,计算物理,计算化学,精算和金融数学等子方向。统计学是专门指一种处理和分析数据的方法,通常与概率论结合在一起使用,通过对的一定数量的数据进行收集,处理和分析,最终得出结论,因为统计学的很多理论模型已经非常成熟,应用领域非常广泛,因此很多时候,统计学与概率论也被划归到应用数学的一个子方向里。
数据科学相比前面二者,涉及的专业领域更为交叉,数据科学和统计学类似的地方在于也是研究如何通过对数据进行获取,分析和处理,得出结论,这也是我们经常可以看到美国数据科学的研究生项目,统计学与概率论通常是必修的课程之一的原因,因为统计学与概率论是目前从大量数据中获取规律和结论的主要办法。
不同之处在于,第一,数据科学交叉性很强,要学习的内容更为丰富,包括计算机编程语言,数据库编程,数学建模,数据挖掘,文本分析,机器学习,统计学与概率论,数据可视化等各个领域的知识和技能,第二,数据科学相比统计学,往往要处理的数据量更为庞大,这也是数据学科通常要学习大数据处理与计算机编程的主要原因。从申请上来说,应用数学的硕士项目相对最少,申请难度最高,统计学和数据科学的硕士项目更多一些,申请难度也相比应数低一些,未来就业来看,数据科学应该是出路最容易的,因为研究生项目本身的开设就是为了满足工业界对数据分析类人才大量需求的,学习的东西更综合,与企业的实际需求贴合更紧密。
Q3
美本心理学+数学,如果申研DS,与工科或理科背景的学生比,是否竞争力弱一些?如果是这样,针对这个背景,可否有DS结合心理学的这种研究生项目?是否还有其他美研项目可以考虑?例如统计学专业?
数据科学是一门实践性非常强的学科,你可以理解为它的基础是统计学和计算机科学,在此基础之上是数据分析在各个领域的应用。由于数据科学具有很强的跨学科性质,因此数据科学项目是欢迎不同背景学生的,也就是并不要求学生是理工背景。但因为数据科学课程的主体是统计和计算机,项目在录取时会要求学生有比较扎实的数理背景,也就是要求学生至少学习了微积分、线性代数、数理统计,以及对至少一门编程语言的熟练掌握,例如R或者Python。如果你的成绩单上没有显示这些课程,你可以通过自学或者相关经历来体现你这方面的能力。
当然,除了学校对学生的基本申请要求之外,录取还受applicant pool申请者群体水平的影响。有时侯,即使你满足了学校的基本要求,由于applicant pool的整体水平比较高,也会出现“水涨船高”的现象。不过,从你的背景来看,数学和心理双学位,应该已经具备了扎实的数理背景,而你的心理学还可能成为你跟理工科学生竞争时的优势。
数据科学和心理学有很多结合的地方,申请时可以考虑心理学底下数据科学相关的分支,比如,哥大Clinical Psychology有Research Method的分支,哥大的Educational Psychology有Cognitive, Behavioral, and Development analysis的方向。除此之外,还可以考虑申请Applied Behavioral Analysis, 哥大和南加大都有这个项目,出来可以考Board Certified Behavior Analyst, 成为Licensed Behavior Analyst,主要治疗自闭症患者和其他有学习障碍患者。如果你对人在商业领域的行为比如市场研究感兴趣的话,还可以考虑南加大的应用心理学,威斯康星麦迪逊的心理学硕士的Data Science in Human Behavior的分支, 杜克的Statistics Market Research, 罗彻斯特大学的Market Analytics, 乔治亚大学的Market Research, 密歇根州立大学的Market research, 和波士顿大学的marketing Communication research这些项目。
Q4
数据科学(偏地理)就业方向是什么?
数据科学(偏地理)在英文中叫Spatial Data Science(空间数据科学),或者Geographic Data Science(地理数据科学),这个专业在很多行业都有广泛应用。简单来讲,空间数据科学就是利用地理信息和空间数据来解决各种问题。我举几个离日常生活比较接近的应用场景。首先是导航和自动驾驶领域,空间数据被用来制作和更新地图、实时定位、路况和交通管理、以及自主导航。另一个例子商业决策中的应用。
零售商可以借助空间数据科学来分析客户的地理位置、市场趋势和商店位置,从而更好地理解客户需求和购物行为。(不知道大家有没有在逛街的时候收到过附近商铺打折的信息?)再一个例子是新冠疫情中利用空间数据来分析疫情传播模式、高风险地区、疫苗发放情况、和社交距离的评估。除了上述应用领域,Spatial Data Science 还在地理信息系统、环境研究、城市规划、交通管理、紧急响应和灾害管理等领域发挥着关键作用。空间数据科学的代表硕士项目有南加大的Master of Spatial Data Science,布里斯托大学的MSc in Geographic Data Science and Spatial Analytics。
08、写在最后
数据科学的本质,是以数据为媒介,连接世界的运行逻辑与人的决策偏好。在这个变量飞快增加的时代,数据科学不是答案,但它是寻找答案的方法。