近些年来,“大数据”这个概念被吹嘘的天花乱坠,仿佛你要是不说点大数据的事就落伍了。
继云计算之后,大数据已然成为IT行业的热点方向。《哈佛商业评论》更是宣称“数据科学家是二十一世纪最性感的职业”。所谓性感,既代表着难以名状的诱惑,也代表了一些不为人知的神秘。
Data Science作为一个宽口径的新兴职业方向,充满了工作机会,市场对数据人才的追求日益激烈,数据科学家在不仅仅在美欧需求巨大,据麦肯锡公司数据显示,在全世界此职业人才短缺超过二十万人。
很多大学开始专门开设数据分析类专业,Data Science作为近年来热门的申请专业也是竞争越来越激烈。但也正因如此出现了随大流的情况,很多同学没有清晰的自我定位,只是因为这个专业很火就决定申请,草率的决定可能让你陷入非常尴尬的境地。
所以这期4W1H栏目哥又邀请了大牛基友韩老师给大家科普一下到底怎样的人适合学DS,学了DS之后会有怎样的发展。让你们少走弯路,做正确的决定。(哥的人脉之广你难以想象!)
- 2013年在纽约州立大学石溪分校用3年时间获得应用数学和物理学本科双学士学位,并以荣誉学生身份毕业 (Magna Cum Laude)。
- 本科毕业后进入美国排名第一的纽约大学柯朗数学研究所攻读科学计算(Scientific Computing) 部门下数据科学(Data Science) 专业硕士学位,期间协助著名美籍华裔数学家邓越凡教授在世界科技出版社整理与发表“Lectures, Problems and Solutions for Ordinary Differential Equations”教科书。
- 本科与硕士暑期分别在在国家超级计算机济南中心及中山大学国家超级计算机广州中心担任助理科研员。硕士毕业后于2015年9月至今,在纽约州立大学石溪分校攻读应用数学博士学位。
Why Data Science?
Q:本科是数学和物理的双学位,如此学霸的背景,你为什么没有选择继续在数学和物理方向学习呢?什么契机让你对Data Science方向产生了兴趣?
A:数学和物理都是基础类学科,为应用实践提供了理论基础。它们之所以得以成为基础学科是因为许多领域方向需要这些知识来作为根基,反过来说,这些学科给我们提供了很丰富的未来发展的选项,这也是我当初选择学习数学和物理的一个主要原因。
通过本科学习,我发现我对应用的兴趣大于对理论科学的热爱,于是我把重心向应用领域偏移,把应用数学作为一个切入口,从中寻找感兴趣的具体方向。
应用数学主要分3个领域,计算数学,金融数学,统计。计算数学相对偏理论,金融我不擅长,所以留下了统计方向。那个时候刚好是DS兴起的初期,学术界普遍认为这将是未来发展的主要方向,NYU也是刚成立DS program,于是这个融合了统计,数学,计算机的交叉学科吸引了我的目光,机缘巧合的赶上了一波学术界的潮流。
Q:就你的理解来说Data Science到底是学什么的呢?它和statistics的区别在哪里?
A:我的理解,DS是统计,数学,计算机的结合体。统计角度,DS主要涉及到概率分布,统计推论,线性回归;数学角度,DS主要涉及到线性代数;计算机角度,DS主要涉及到编程,算法。简单来说,DS告诉我们在拿到实验数据后有多少种处理方式以及每种方式对应可以得到的结论和涵义。
从表面来看,DS和stat有很多很多共同之处,例如它们都要学习概率和统计推论,细分下来还是有一些不同点。
首先,stat比DS更注重理论基础,比如统计推论中的假设检验,这是stat中的重点和难点,然而DS只需要知道它的表现形式和计算步骤就足够了;
其次,stat不仅要知道如何用假设检验分析数据,还要学习怎样设计实验来得到我们想要的数据结果;
除此,stat无需什么算法来对拘束进行运算,DS在统计方法上延伸出许多算法来计算出数据间的关系;
另外,stat已经存在很多成熟的工具来便于直接做统计处理,而DS在算法上的多样性使得它需要用编程语言来自行实现。
Q:在NYU的研究生学习中,能够培养和提高哪些技能?
A:首先,我在NYU学习的所有课程教授一致默认学生都已经掌握所需编程技能,与DS相关的课程无论是不是计算机系开设,上课所学全部为理论知识,对于如何具体实践留给学生在作业当中自行探索研究。
记得第一次作业要求用python,当时我对python一无所知,花了满满两天时间自学一遍,直接用作业上手练习。其次是课业量之大根本没有喘息的时间,尤其是在前两周刚学会python的阶段。每次的作业虽然预留了一周时间,但对我来说在同学和TA的帮助下才能勉强按时完成,然而在提交作业的当天,新一轮作业扑面而来。也正是这样紧凑的实践过程,让我时刻在巩固着学到的每个知识点,同时编程能力在不断练习下得到快速的进步。
值得一提的是所有的作业都有一个体系,围绕着一个问题层层递进,最终在最后一问得到全局的结论,这样的体系有助于把学到的理论按实际操作顺序整合起来。这样的练习反复多次,培养了对各类型数据的敏感程度,待再次遇到问题时可以清晰地从头到脚把对应的思路和算法剖析出来,这是我认为很重要的一个能力。
Q:很多对数据方向有兴趣的同学,想进入这个领域但是却不知道从何入手开始学习,给想入门的菜鸟级选手一些建议吧。
A:依然从统计,数学,计算机三个方向考虑。就统计而言,在我看来,基本的统计学是基于离散和连续的概率分布模型之上构建出来的理论系统,因此对于初学者,完善的掌握这些概率分布模型对于以后深入的学习会有很大帮助。其次是线性回归。
再来说数学。DS所用到的数学理念就我个人的观点会比统计学更多,这里我想说的是数学理念而不是数学概念,也就是说,如果想要在这个领域取得一定的突破,我们泛泛的讲,线性代数中所提出的定义,例如向量,矩阵,空间等,在学习的过程中会传递非常强的将问题‘代数化’的思考模式,对于DS也是至关重要的。
最后来谈计算机方面。对于这一领域我会推荐直接学习python。如果有计算机系统学习的 背景那对新语言的学习会有很大帮助,如果之前没有过编程经验,python也可以是一个不错的选择,一方面python是开源的,会有成吨的资源以供参考,另一方面,很多DS相关的library已经很成熟。再者,一开始我并不建议从计算机这个学科的角度来准备算法,以我自己的学习经验,可能一开始从数学或者统计的角度来做这个准备,在有一定基础后再来介入与计算机相关的一些算法概念。
再者有一点,如果是在以上三方面已经有一定的背景的同学,我认为深入了解并行计算的概念非常重要。因为单机处理大数据慢慢变得不现实了,需要用更强大的计算资源进行运算。但对于背景空缺比较大的同学来说,这件事可以不用在一开始就提上日程。
Q:申请方面有什么建议给同学们,学校项目有推荐吗?
A:在入学前具备编程能力,当然这个因每个人的背景不同而异。python和r对于data science是基础的编程语言,在此之上掌握其他的编程语言,例如sql,matlab和c++,都可以作为掌握的编程技能写入简历里面,不失为锦上添花。
能有与之相关的实习经历最好,没有的话,做一些相关的项目,这个可以寻求现在所在学校教授的帮助,在他们当中找寻一些加入此类项目的机会。这些实践不仅对申请有帮助,更可以帮助你更快适应这一领域的学习及科研。浏览与DS相关的论坛或群,了解发展动向,或许对PS有所帮助。这里的帮助会有多大不太好量化,但是毕竟需要进入这一行业,了解行业前沿和动态,是非常好的预备课程。申请有申请的流程和指标,我理解来说,申请者被录取的最基本的原因是达到了校方的期待和要求,他们认为你对这个领域有极大的热情且能够胜任课程,当然入学时肯定还会有一些量化的要求。那以上三点不但可以为申请加分,在我看来更重要的是,抛开申请不谈,以上三点也会为你自己的知识储备添砖加瓦。
Q:在纽约呆了这么多年,说说你的生活体验
A:相对于行政区划,纽约对我而言是一个区域性的概念。我在石溪,也就是长岛中部的北岸生活了大概5年,在皇后区生活了1年,在新泽西生活了1年,在曼哈顿上了两年的学。纽约大概就是我日常生活区域的总称。
在NYU的时候,教学楼全都在市区里,毫不夸张的闹市区里,有非常多非常多好吃的店,以致于现在我也不知道NYU的学校食堂在哪。可以吃的最多的还是麦当劳,就是QR线边上的那一家。一般到晚上了,就买一份带着然后上地铁回家。有好吃的吃不成,因为还有堆成山的作业,每天都是ddl这毫不夸张,地铁会坐80分钟的样子,搬去新泽西后会稍微近一点。在地铁上是最放松的时间,感觉不用面对上不完的课写不完的作业以及又要吃一模一样的面比肉多的炸鸡,那时候地铁准点而且有位置坐就是今天最幸运的事。
大概一个月有上三四次机会,会在柯朗和stern的楼围成的花园里晒太阳,只有这个时候会偶尔想一想体验或者感受或者反思这一类问题。对我而言这就是在纽约最真实的感受,或许停下来感受的时间微乎其微,但我能感受到自己是在实实在在的做着一些对我自己有意义的事,但是要说出来是什么意义对我而言很难。但后来离开曼哈顿又回到石溪的时候,我有时还是很想那个地方,毕竟旁边那家越南牛肉米粉肉多汤足还是很好吃的。
What is Data Science?
数据科学就是从数据中提取信息知识,即是数据挖掘与预测分析的延伸,亦是发掘知识与数据的过程。所以,通俗来讲,数据科学,就是通过分析数据,来挖掘获得这些数据中的潜在信息。
运用庞大的数据进行分析来支持商务决策(data driven decision making)这是数据科学的最终目的,概括来说Data Science的研究和应用方向分为以下部分:
Predictive Analytics:
分析数据来预测未来可能发生的事情。
Descriptive Analytics:
分析数据找出过去事件的特征和正在发生事件的趋势。
Prescriptive Analytics
分析数据来找出最佳措施、取得最优化的结果。
更清晰直观的学习内容可以从课程设置中体现,从课程设置来看难度是不小的,对学生着重培养的能力点在计算机科学能力,数学、统计、数据挖掘的能力以及数据可视化方面的技能。
Which school to choose?
以上是顾问团队整理的一些Data Science的master项目,涵盖了不同tier的学校和项目,有独立的DS项目也有依附于System等大专业下DS相关的track等,可供大家参考。
接下来以哥大为例,详细介绍一下:哥伦比亚大学数据科学专业(MS Data Science Track)
哥伦比亚大学有一个世界顶尖的大数据科学与工程研究室(Institute for Data Sciences and Engineering),学生在此参与实验与科研项目。该项目是2014年秋季新开设的,由此可见其对于这一专业的重视。项目开设在工学院下,项目侧重数据挖掘、算法和统计建模(i.e., Algorithms for Data Science, Machine Learning for Data Science, Statistical Inference & Modeling),培养方案面向业界需求。
以下是主要课程:
其中作为必修的7门课重心都放在Computer Science 和 Statistics 两个方向,课程设置来看难度和含金量都是够的,Capstone Project也是给学生很好的实践和运用机会,加上哥大的常青藤光环和工程学院整体的教学质量和优势资源,整个项目的竞争力优势是非常大的。
申请要求:
和大多数DS项目一样,对申请者本身背景的CS和数学会有一定要求,基本的计算机语言和数学基础课程要满足,目前只开设了Fall申请。
参考2016年的录取数据:
名校的套路都是很明显的,尽管没有minimum scores的要求,大眼一看average scores还是让人很心寒的,所以大家还是要努力提高自己的标准化成绩以提高自己的竞争力!
Where to go after graduate?
Data Science硕士项目的最大优势是在于课程设置,software system、machine learning、database、optimization、decision science、statistics、business intelligence等所有涉及到的领域知识,往往都会学一些。因此,跟比如学统计或者计算机出身的同学相比,有Data Science硕士学位的同学,知识结构更合理、更全面。也正是因为这点,就业领域会更广泛,前景是非常乐观的。
以下数字可以说明数据人才有多稀缺:在美国职业社交网站领英网(LinkedIn),有3.6万个数据科学家的职位虚位以待。另一家网站的数据显示,去年底有6000家公司正在招聘数据方面的人才。一个拥有博士学位的数据科学家的起薪通常是六位数,工作两年后,就可以轻松赚到20万至30万美元的年薪。可以说数据人才是一个高待遇高就业率的“香饽饽”专业了。
就目前的情况来说,Information Technology、Insurance、Marketing/BI,是目前招聘data scientist的主力。综合来看,就业形势喜人,可以说是人人争抢。
How to apply?
就业形式和申请竞争是成正比的不同的项目对学生背景要求不同,录取标准各异,以哥的母校NYU的Data Science项目来给大家做讲解。
总体来说DS的大多数项目倾向于录取数学或者统计等计量学科背景的学生,同时希望申请人有软件编程基础、会写程序分析数据。比较牛的项目,更是如此。
数学基础:
数学三件套:微积分、线性代数、概率统计这三门理工科专业的基础课程。尽管修课背景的缺乏并不代表你一定拿不到录取,但是你仍然是处于劣势的。如果你修课背景缺乏,可能更适合的是商学院里开设的项目,这类项目侧重analytics,而不是data science,对各种背景的申请人都更友好。有的学校还有特殊要求,比如西北大学希望申请人上过Java课程、NCSU有很严格的面试。这也增加了申请难度。
标准化成绩及申请材料:
本科GPA3.6(很多学校官网要求是3.0+),TOEFL/IELTS的语言成绩100+/7.0+算是有竞争力的标准配置。
NYU的DS是极少的能接受GMAT的项目,商学院里一般都接受GMAT,但是大多数项目并非商学院开设的。所以我的建议是,如果想选校不受限制,最好考GRE。
文书很重要!基本上所有学校的录取委员会,都希望在文书里能看到你对数据科学、对商务分析,能有一定的理解,而不是在对这个专业所知聊聊的情况下蒙头胡申。同时,作为很侧重职业培训的项目,有相关工作经验和实习是加分。如果你有工作经验,那一定要结合工作,体现你对这个专业的理解和看法。如果你没有工作经验,建议你文书里更是要设计合适的内容,充分体现自己的背景和基础可以胜任这个专业。哥想说的是如果你极其讨厌编程、大学数学勉强合格,或者跟人交流能力巨挫,你可以自动过滤掉关于data science/analytics等相关专业方向的项目。