正文

第2章 在成為成功的數(shù)據(jù)科學(xué)家之際

數(shù)據(jù)科學(xué)家訪談錄 作者:[美] 單研(Carl Shan),陳子蔚(William Chen),汪強(qiáng)明(Henry Wang),宋邁思(Max Song) 著;田原,劉奕 譯


第2章 在成為成功的數(shù)據(jù)科學(xué)家之際

Fast Forward Labs創(chuàng)始人Hillary Mason

Hillary是機(jī)器智能研究公司Fast Forward Labs 的創(chuàng)始人,同時(shí)也是Accel公司的全職數(shù)據(jù)科學(xué)家。在此之前,她曾是Bitly公司首席科學(xué)家,她在那里領(lǐng)導(dǎo)著一個(gè)專注于研究因特網(wǎng)實(shí)時(shí)動(dòng)向的團(tuán)隊(duì),從事研究、探索和軟件工程的復(fù)合型工作。她也是HackNY和DataGotham的聯(lián)合創(chuàng)始人,同時(shí)是NYCResistor成員。

作為一名全職的數(shù)據(jù)科學(xué)家,您的工作具體有哪些?

我的日常工作主要有3個(gè)方面。首先,我時(shí)常與合作伙伴們一同探討有趣的技術(shù)以及公司。其次,我與那些Accel注資管理的公司合作,在他們遇到有趣的或者具有挑戰(zhàn)性的數(shù)據(jù)問(wèn)題的時(shí)候提供幫助。最后,我?guī)椭鶤ccel公司理清頭緒,分析出未來(lái)的下一代數(shù)據(jù)公司應(yīng)該是什么樣的。

現(xiàn)在風(fēng)險(xiǎn)投資公司開(kāi)始聘用全職數(shù)據(jù)科學(xué)家了,您覺(jué)得這種趨勢(shì)會(huì)越來(lái)越流行嗎?

在我們當(dāng)下的這個(gè)時(shí)代,只有極少數(shù)的人有過(guò)花費(fèi)多年時(shí)間來(lái)幫助公司建立數(shù)據(jù)科學(xué)團(tuán)隊(duì)或者幫助公司打造數(shù)據(jù)產(chǎn)品的經(jīng)歷。所以對(duì)于公司來(lái)說(shuō),能有從事這方面工作達(dá)數(shù)年時(shí)間的專家加入并著手做這件事情,本身就已經(jīng)非常有價(jià)值了。

我并不覺(jué)得招聘數(shù)據(jù)科學(xué)家在未來(lái)會(huì)和現(xiàn)在一樣困難。因?yàn)楝F(xiàn)在數(shù)據(jù)科學(xué)是一個(gè)全新的東西——只有很少的人有過(guò)這方面的長(zhǎng)期經(jīng)驗(yàn)。因此對(duì)于風(fēng)投公司來(lái)說(shuō),得到一位能時(shí)時(shí)刻刻協(xié)助它的多家下屬公司、解決各種數(shù)據(jù)問(wèn)題的數(shù)據(jù)科學(xué)家是多有裨益的。就當(dāng)下而言,數(shù)據(jù)科學(xué)專家不容易找到,但也并不是完全不可能。我覺(jué)得在未來(lái)幾年,越來(lái)越多的人會(huì)給予這類專家更高的待遇和重視。

您能向我們讀者介紹一下紐約的數(shù)據(jù)社區(qū)嗎?

紐約不是一個(gè)科技城市。這個(gè)城市的金融、出版、媒體、流行、美食以及其他一些行業(yè)更為著名。這是一個(gè)無(wú)所不有的城市,所以我們?cè)诔鞘械拿恳粋€(gè)角落都可以看到數(shù)據(jù)。在紐約從事數(shù)據(jù)科學(xué)的人,幾乎遍布你能想象到的所有行業(yè)領(lǐng)域。這正是這座城市的魅力所在。

你會(huì)看到公務(wù)員們?cè)谑虚L(zhǎng)辦公室使用數(shù)據(jù)來(lái)談?wù)撍麄兊墓ぷ?,科學(xué)家們?cè)谟脭?shù)據(jù)展示、討論他們的科研成果,健康領(lǐng)域的人在使用數(shù)據(jù)治療癌癥,甚至于媒體界也在使用數(shù)據(jù)分析新聞。你會(huì)看到無(wú)論是初創(chuàng)公司還是大型企業(yè),他們都在熱情洋溢地坐在一起討論他們是如何運(yùn)用數(shù)據(jù)的。

DataGotham是我們致力于讓更多這樣的數(shù)據(jù)分析需求得到人們重視而所做的一次嘗試。我們開(kāi)始這個(gè)項(xiàng)目的宗旨就是:“無(wú)論你從事什么行業(yè),如果你關(guān)心數(shù)據(jù),就來(lái)我們這里,與其他志同道合的人一起探討。”我認(rèn)為這個(gè)項(xiàng)目非常成功。紐約的數(shù)據(jù)社區(qū)就是在這樣的靈感中誕生的。

您認(rèn)為數(shù)據(jù)科學(xué)未來(lái)會(huì)在其他方面有哪些改變?在您的設(shè)想中,未來(lái)5年數(shù)據(jù)科學(xué)領(lǐng)域會(huì)變成什么樣子?

5年是非常長(zhǎng)的一段時(shí)間了。如果你回看5年以前,數(shù)據(jù)科學(xué)在那時(shí)甚至還不存在,而即使是在當(dāng)下,它也尚在一個(gè)茁壯成長(zhǎng)的萌芽過(guò)程中。未來(lái)5年,很多事情都會(huì)發(fā)生轉(zhuǎn)變。我不能具體地說(shuō)出未來(lái)5年會(huì)發(fā)生什么,但是可以做一些猜測(cè)與展望。

首先的一個(gè)變化就是,當(dāng)下這種野蠻生長(zhǎng)、孤立無(wú)援的局面將不復(fù)存在。我認(rèn)識(shí)很多出色的數(shù)據(jù)科學(xué)家,他們供職于計(jì)算機(jī)科學(xué)、物理學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、政治科學(xué)、新聞業(yè)等各種行業(yè)。他們正在興致盎然地轉(zhuǎn)向數(shù)據(jù)科學(xué),而他們中的許多人其實(shí)都沒(méi)有學(xué)術(shù)背景。這樣的轉(zhuǎn)變正在發(fā)生著——今天,你甚至可以直接在碩士階段選擇數(shù)據(jù)科學(xué)專業(yè)。

也許在未來(lái),越來(lái)越多來(lái)自不同領(lǐng)域背景的新鮮血液進(jìn)入這個(gè)領(lǐng)域之后,他們之間的交流合作會(huì)讓數(shù)據(jù)科學(xué)的輪廓框架日漸清晰,讓我們自身也對(duì)于它有更為深入的了解,并且迸發(fā)出更多的創(chuàng)意和點(diǎn)子。而這可能會(huì)是一把“雙刃劍”。

我們?cè)诔鞘械拿恳粋€(gè)角落都可以看到數(shù)據(jù)。在紐約從事數(shù)據(jù)科學(xué)的人,幾乎遍布你能想象到的所有行業(yè)領(lǐng)域。這正是這座城市的魅力所在。

第二個(gè)變化就是,這么說(shuō)吧,假如未來(lái)5年,我依然在寫(xiě)Java代碼的話,我很可能要遇到難以逾越的瓶頸!我們的工具一定會(huì)變得比現(xiàn)在好用很多的,這樣的情況同樣也已經(jīng)在發(fā)生了。這簡(jiǎn)直不能被稱為“猜想”了,因?yàn)槲抑涝跀?shù)據(jù)科學(xué)領(lǐng)域,這樣的革命正在進(jìn)行。

5年以前,大部分?jǐn)?shù)據(jù)公司都著力于創(chuàng)造基礎(chǔ)設(shè)施,例如研發(fā)各種不同類型的數(shù)據(jù)庫(kù)。他們致力于開(kāi)發(fā)的工具大多是用于管理時(shí)間序列數(shù)據(jù)的。但是現(xiàn)在,這個(gè)領(lǐng)域的基礎(chǔ)設(shè)施已經(jīng)非常成熟了,我們現(xiàn)在看到公司正在想辦法讓這些原本笨拙復(fù)雜的數(shù)據(jù)設(shè)備變得簡(jiǎn)單易用。所以現(xiàn)在你可以看著一個(gè)個(gè)漂亮的儀表盤(pán),在大屏幕上輸入你的查詢語(yǔ)句,然后你的命令就會(huì)轉(zhuǎn)向后臺(tái),自動(dòng)進(jìn)行map-reduce運(yùn)算,而不再需要像以前一樣,一邊抱怨,一邊花費(fèi)40小時(shí)去絞盡腦汁地編寫(xiě)并行運(yùn)算算法。我認(rèn)為工具的簡(jiǎn)單易用就是一種趨勢(shì),未來(lái)會(huì)越來(lái)越常見(jiàn)。

文化同樣也是一個(gè)將會(huì)發(fā)生顯著變化的方面。我認(rèn)為數(shù)據(jù)文化(data culture)將會(huì)越來(lái)越流行,即使對(duì)于并不從事數(shù)據(jù)科學(xué)的人來(lái)說(shuō)也一樣。這意味著在許多公司里,你將會(huì)看到很多人的頭銜并不是“數(shù)據(jù)科學(xué)家”,但是他們也做著差不多的事情。在他們需要統(tǒng)計(jì)數(shù)據(jù)庫(kù)里的一些數(shù)據(jù)的時(shí)候,他們?cè)僖膊恍枰獙で蠼y(tǒng)計(jì)學(xué)家的幫助——他們自己也可以搞定。我對(duì)此是非常期待的。我始終堅(jiān)信數(shù)據(jù)可以賦予人們做出更好的決策的能力,所以越多的人參與這項(xiàng)事業(yè),對(duì)這個(gè)領(lǐng)域的發(fā)展必然越好。

如果在未來(lái),幾乎每一個(gè)公司里都有這樣有數(shù)據(jù)意識(shí)的人,您覺(jué)得數(shù)據(jù)科學(xué)家的角色會(huì)發(fā)生什么變化嗎?

數(shù)據(jù)科學(xué)家會(huì)不斷地詢問(wèn)問(wèn)題。在任何時(shí)候,問(wèn)對(duì)問(wèn)題都很不容易,例如你在面對(duì)一個(gè)復(fù)雜的商業(yè)難題時(shí)該怎么入手?有哪些問(wèn)題需要解決?這些都很不容易看出來(lái)。另外,如何解讀數(shù)據(jù)分析的結(jié)果也是一個(gè)難題。數(shù)據(jù)科學(xué)家可能會(huì)成為像教練一樣的人,在他們的領(lǐng)域內(nèi),針對(duì)他們一直以來(lái)致力解決的問(wèn)題,他們慢慢會(huì)成為那方面的權(quán)威專家。

數(shù)據(jù)科學(xué)家以及數(shù)據(jù)團(tuán)隊(duì)能做的事情眾多,遠(yuǎn)遠(yuǎn)不止上述的商業(yè)智能領(lǐng)域。他們可以做算法工程,創(chuàng)造新穎的產(chǎn)品,收集數(shù)據(jù)集,為產(chǎn)品尋找以及打開(kāi)潛在的市場(chǎng)與生意。所以我從來(lái)不覺(jué)得數(shù)據(jù)科學(xué)家們會(huì)像明日黃花一般日暮西沉。

在談?wù)摂?shù)據(jù)科學(xué)的時(shí)候,您特意強(qiáng)調(diào)了溝通能力和講故事的能力,您可以更多地介紹一下嗎?

一名數(shù)據(jù)科學(xué)家就是腦子里想著問(wèn)題、靜靜地坐在計(jì)算機(jī)前的人,然后他會(huì)開(kāi)始收集數(shù)據(jù),用數(shù)據(jù)去解決問(wèn)題、回答問(wèn)題。抑或他是一個(gè)一開(kāi)始擁有一批數(shù)據(jù)的人,然后他開(kāi)始針對(duì)這批數(shù)據(jù)問(wèn)出問(wèn)題,并且嘗試去深入理解它。他會(huì)做一些數(shù)學(xué)推導(dǎo)、寫(xiě)一些代碼、做一些分析,然后最終得到一些結(jié)論,再然后呢?

他需要把從數(shù)據(jù)中分析得到的東西告訴別人,讓更多并沒(méi)有參與這個(gè)研究過(guò)程的人也知道結(jié)論是什么。創(chuàng)造一個(gè)有信服力并且精彩的故事,同時(shí)要保證故事尊重?cái)?shù)據(jù)事實(shí),這可不是容易的事情。這一項(xiàng)技能在眾多技術(shù)行業(yè)里都被忽視了。但事實(shí)就是,如果你不僅能做出一些東西,還能很好地解釋它們,這會(huì)讓你異常出彩。但是,我不認(rèn)為這是一件容易的事。

為什么它不容易?為什么用簡(jiǎn)練的語(yǔ)言解釋一些東西是非常困難的?

之所以難,是因?yàn)樗枰硇?。你?dāng)然必須要理解那些非常復(fù)雜以及學(xué)術(shù)性的技術(shù),但同時(shí)你需要對(duì)一些完全沒(méi)有技術(shù)背景的人講解這一切。你必須要清楚他們是怎么想的,這樣你才能用他們能夠理解的語(yǔ)言來(lái)講述這一切。同時(shí),你必須要考慮到,你的聽(tīng)眾只有很短的一段時(shí)間能集中精力,他們很快就會(huì)變得不耐煩,并且他們絕對(duì)不會(huì)花費(fèi)大量的時(shí)間去學(xué)習(xí)這些知識(shí)或者技術(shù)。

我始終堅(jiān)信數(shù)據(jù)可以賦予人們做出更好的決策的能力,所以越多的人參與這項(xiàng)事業(yè),對(duì)這個(gè)領(lǐng)域的發(fā)展必然越好。

所以你必須要想辦法用你的語(yǔ)言,或者可視化的工具方法,來(lái)讓你的聽(tīng)眾理解你所做的東西,這樣才不枉你花費(fèi)大量的時(shí)間去建立復(fù)雜的模型。當(dāng)你這樣去看這個(gè)問(wèn)題時(shí),就會(huì)覺(jué)得能夠在自身了解清楚各種復(fù)雜技術(shù)的情況下,用精練準(zhǔn)確的筆觸把這一切寫(xiě)下來(lái),然后與其他人進(jìn)行溝通,分享數(shù)據(jù)分析背后的知識(shí)和興趣,這是一件多么讓人激動(dòng)的事情。

當(dāng)你像這樣去思考這個(gè)問(wèn)題的時(shí)候,就會(huì)發(fā)現(xiàn)“講故事”確實(shí)是非常困難的技能,就像是藝術(shù)一樣。你需要努力將曠日持久的學(xué)習(xí)經(jīng)驗(yàn)和復(fù)雜工作,以人們可以理解的一種方式娓娓道來(lái)。

您之前說(shuō)過(guò),一些初創(chuàng)公司擁有非常好的數(shù)據(jù)科學(xué)工作機(jī)會(huì)。基于您曾經(jīng)在Bitly和咨詢初創(chuàng)公司的工作經(jīng)歷,您能不能更多地解釋一下?

我不得不說(shuō),我在最好的數(shù)據(jù)科學(xué)工作機(jī)會(huì)這個(gè)問(wèn)題上是有一些個(gè)人偏好的。最好的數(shù)據(jù)科學(xué)工作機(jī)會(huì),就是那種你有足夠的自由度去收集數(shù)據(jù)的工作機(jī)會(huì)。而你收集來(lái)的數(shù)據(jù)經(jīng)常是你一直在努力創(chuàng)造的一個(gè)產(chǎn)品的“副產(chǎn)品”。

Bitly就是一個(gè)這樣的例子——更短的URL可以讓你的公司網(wǎng)站更快、更容易地在互聯(lián)網(wǎng)上傳播復(fù)制。針對(duì)人們?cè)诨ヂ?lián)網(wǎng)和社交網(wǎng)站上傾向于點(diǎn)擊什么網(wǎng)址、分享什么網(wǎng)址,人們收集了一批非常好的數(shù)據(jù)。但是僅此而已,從來(lái)沒(méi)有人真正從頭開(kāi)始、踏踏實(shí)實(shí)地做一個(gè)專門(mén)用于縮短網(wǎng)址的產(chǎn)品,然后用它來(lái)進(jìn)行分析:卡戴珊(Kardashian)在采用了“Kim”的縮寫(xiě)名之后,有沒(méi)有變得更受歡迎。Bitly的創(chuàng)始人John Borthwick稱這樣的“副作用”為“數(shù)據(jù)尾氣”,這實(shí)在是一個(gè)非??蓯?ài)的名字。

換言之,如果你是學(xué)術(shù)界的人,你可能沒(méi)有機(jī)會(huì)擁有一個(gè)可以不斷為你產(chǎn)生數(shù)據(jù)的產(chǎn)品。這導(dǎo)致在你開(kāi)始做想做的事情之前,必須要做一些額外的工作(來(lái)產(chǎn)出數(shù)據(jù))。你需要想辦法自己產(chǎn)出數(shù)據(jù),或者去大公司乞求他們施舍你一些數(shù)據(jù)。這一切都是非常不容易的,因?yàn)榻^大多數(shù)公司根本不愿意分享數(shù)據(jù)。實(shí)際上,他們對(duì)于數(shù)據(jù)都有非常強(qiáng)的獨(dú)家占有意識(shí)。所以,作為一名科研工作者,你可能會(huì)覺(jué)得自己在這個(gè)問(wèn)題上進(jìn)退兩難,除非你可以與公司里那些家伙把關(guān)系搞得非常好。

如果你供職于一家大企業(yè),你想要的數(shù)據(jù)可能已經(jīng)深埋在公司那堆成山的、無(wú)法運(yùn)轉(zhuǎn)的數(shù)據(jù)庫(kù)里了?;蛘吣阈枰?jiǎng)佑脤訉盈B疊的批準(zhǔn)文件,才能獲得你想要的數(shù)據(jù)。

如果你所在的初創(chuàng)公司擁有一個(gè)可以產(chǎn)出數(shù)據(jù)的產(chǎn)品,那么這絕對(duì)是最完美的地方了。作為一名數(shù)據(jù)科學(xué)家,你有能力去修改產(chǎn)品的參數(shù),從而讓它產(chǎn)出其他的一些數(shù)據(jù),所以你可以問(wèn)“我們可以采集一些其他數(shù)據(jù)嗎?”或者“你覺(jué)得如果我們這樣做,會(huì)不會(huì)發(fā)現(xiàn)其他一些好玩的東西?”一類的問(wèn)題,這樣非常開(kāi)放自由的環(huán)境正是最適合數(shù)據(jù)科學(xué)家工作的地方。

在數(shù)據(jù)中,我們總是可以發(fā)現(xiàn)很多有趣的東西。這樣的過(guò)程非常有意思,并且這也確實(shí)是工作的一個(gè)好選擇。

您可以對(duì)有志于加入數(shù)據(jù)科學(xué)初創(chuàng)公司的人給予什么建議嗎?一個(gè)新人應(yīng)該如何選擇公司?

試著去了解一個(gè)初創(chuàng)公司的文化。一般來(lái)說(shuō)初創(chuàng)公司的文化都很好——一個(gè)原因是初創(chuàng)公司都比較自由隨和,文化上也比較多元包容。你可能會(huì)發(fā)現(xiàn)有些公司非常適合你,但有些就不太適合。這并不代表你本人不夠優(yōu)秀,僅僅是因?yàn)檫@個(gè)公司不適合而已。

如果你所在的初創(chuàng)公司擁有一個(gè)可以產(chǎn)出數(shù)據(jù)的產(chǎn)品,那么這絕對(duì)是最完美的地方了。

正如我之前說(shuō)的,很多公司現(xiàn)在都在招聘他們的第一位數(shù)據(jù)科學(xué)家。而大部分的數(shù)據(jù)科學(xué)家其實(shí)都對(duì)這個(gè)工作沒(méi)有任何經(jīng)驗(yàn),所以想要找到那種能迅速投入工作、完成別人力所不能及的任務(wù)的數(shù)據(jù)科學(xué)家是非常難的事情。我會(huì)弄清楚,我將需要合作的人(無(wú)論是你的COO、CTO還是CEO)對(duì)于招聘數(shù)據(jù)科學(xué)家這件事情有足夠清楚的認(rèn)識(shí)。至少他們必須是那種你可以合作,一同分析探討你應(yīng)該如何努力做事情的人。

對(duì)于工作的優(yōu)先級(jí)以及應(yīng)該在什么項(xiàng)目上花時(shí)間,您有什么心得可以分享嗎?

在工作中,有一個(gè)無(wú)限長(zhǎng)的待辦事項(xiàng)清單等待你去解決——你如何選擇那個(gè)能夠帶來(lái)最顯著影響的問(wèn)題?如果在你的公司,CEO一直在催促你做出一些用于董事會(huì)會(huì)議的PPT,銷售主管總是在催促你給他數(shù)據(jù)……但是在這個(gè)時(shí)候,你有一個(gè)覺(jué)得非常有意思的項(xiàng)目——但是他們所有人都對(duì)這個(gè)項(xiàng)目完全不感興趣,僅僅是因?yàn)樗麄儧](méi)有和你一同坐下來(lái)探討分析這個(gè)問(wèn)題,這個(gè)時(shí)候你又該怎么辦?

如果你正在尋找的數(shù)據(jù)科學(xué)家工作是你的第一份工作,那么你應(yīng)努力確保主管上司能夠成功管理項(xiàng)目進(jìn)度。這說(shuō)起來(lái)容易,但如果你真的是一位主管,你就會(huì)發(fā)現(xiàn)這事兒不像外行看起來(lái)那么容易。這是一項(xiàng)你必須要磨礪的技能。如果你要成為一名主管,我建議你思考下面的一系列問(wèn)題——如何同時(shí)推進(jìn)幾個(gè)項(xiàng)目的進(jìn)度?如何讓項(xiàng)目之間的成員有所交流?如何讓項(xiàng)目的進(jìn)度趕得上公司其他部門(mén)的進(jìn)展?

您還有其他建議可以給我們嗎?

尋找好的數(shù)據(jù)集。當(dāng)我面試那些尋求數(shù)據(jù)科學(xué)職位的人的時(shí)候,他們往往已經(jīng)花了一些時(shí)間與我團(tuán)隊(duì)內(nèi)的人溝通交流了。我會(huì)說(shuō):“現(xiàn)在你已經(jīng)知道我們?cè)谧鍪裁戳恕H绻椰F(xiàn)在問(wèn)你,你有沒(méi)有發(fā)現(xiàn)什么我們整個(gè)團(tuán)隊(duì)一直都沒(méi)有想到的好主意或者分析方法,你腦子里第一個(gè)閃過(guò)的答案是什么?”我其實(shí)并不關(guān)心答案是什么,但是我想要知道他有沒(méi)有能力去構(gòu)思這個(gè)數(shù)據(jù)集是什么樣的,并且獨(dú)立地想出一個(gè)角度來(lái)運(yùn)用這批數(shù)據(jù)。

針對(duì)上述的問(wèn)題,我從面試者中收到的大部分答案都是我們已經(jīng)思考過(guò)的。我并不指望這些面試的人可以在那么短的時(shí)間內(nèi)迸發(fā)出一個(gè)絕頂聰明的點(diǎn)子,但是他們的答案會(huì)反映出他們內(nèi)心有沒(méi)有我們最期待看到的創(chuàng)造力。如果你一直以來(lái)都期待加入某些公司或者項(xiàng)目組,成為他們其中的一員,但你對(duì)于自己將要參與的事業(yè)卻沒(méi)有任何的想法,那這就有問(wèn)題了。你應(yīng)該要能想到一些讓你自己都為之喝彩、激情澎湃的點(diǎn)子。

對(duì)于在公司工作的人們來(lái)說(shuō),各種事項(xiàng)的優(yōu)先級(jí)應(yīng)該是怎么樣的?應(yīng)該如何做出對(duì)公司有重大影響力的產(chǎn)品和工作?

就以我在Bitly工作的經(jīng)歷為例吧,針對(duì)我們所面對(duì)的每一個(gè)數(shù)據(jù)項(xiàng)目,都有一系列的問(wèn)題亟待解決。這些問(wèn)題的優(yōu)先級(jí)排序不僅僅是我們個(gè)人(團(tuán)隊(duì))的問(wèn)題,更是整個(gè)公司的問(wèn)題,因?yàn)橹挥星‘?dāng)?shù)呐判虿拍茏尮镜钠渌块T(mén)了解我們項(xiàng)目的進(jìn)度。

在工作中,有一個(gè)無(wú)限長(zhǎng)的待辦事項(xiàng)清單等待你去解決——你如何選擇那個(gè)能夠帶來(lái)最顯著影響的問(wèn)題?

第一個(gè)問(wèn)題是,我們能不能清楚地定義這個(gè)問(wèn)題?我覺(jué)得一個(gè)很好的辦法就是,把這個(gè)問(wèn)題用最簡(jiǎn)潔的語(yǔ)言描述出來(lái),寫(xiě)在一張白紙上,讓所有人都明白我們想要做什么。

第二個(gè)問(wèn)題是,我們?cè)趺垂烙?jì)何時(shí)順利完成這個(gè)項(xiàng)目?我們應(yīng)該用什么成敗指標(biāo)來(lái)判斷我們針對(duì)某個(gè)問(wèn)題的解決方案是不是成功的?例如,如果你項(xiàng)目的算法根本無(wú)法返回一個(gè)可以量化的指標(biāo),你至少應(yīng)該寫(xiě)清楚這個(gè)項(xiàng)目的量化指標(biāo)不能是一個(gè)簡(jiǎn)單的數(shù)字。

第三個(gè)問(wèn)題是,假設(shè)我們最終可以完美地解決這個(gè)問(wèn)題,我們應(yīng)該首先從什么地方入手?我問(wèn)這個(gè)問(wèn)題的目的是確保每一個(gè)項(xiàng)目都時(shí)刻與公司的業(yè)務(wù)和產(chǎn)品相關(guān),而不能僅僅因?yàn)槲覀儗?duì)某些東西好奇就花費(fèi)大量的人力、物力去一探究竟。所以針對(duì)項(xiàng)目,在入手的第一步,就要有一個(gè)長(zhǎng)期的規(guī)劃,確保我們可以通過(guò)這一階段的工作,更深入地了解數(shù)據(jù)。

對(duì)于所涉及的每一個(gè)數(shù)據(jù)項(xiàng)目,你需要不斷問(wèn)自己以下幾個(gè)問(wèn)題:我正在做什么事?我如何估計(jì)工期還有多長(zhǎng)?這項(xiàng)工作會(huì)帶來(lái)什么影響?如果你不斷地問(wèn)自己上述這些問(wèn)題,你就會(huì)知道有沒(méi)有把自己的時(shí)間合理地投資在正確的方向上。

您有沒(méi)有例子來(lái)更好地說(shuō)明如何通過(guò)詢問(wèn)自己這些問(wèn)題來(lái)理解項(xiàng)目?

例如,你手頭有一個(gè)項(xiàng)目:“土耳其用戶與美國(guó)用戶在日常的行為上有差異嗎?”這是一個(gè)與市場(chǎng)有緊密關(guān)聯(lián)的問(wèn)題,對(duì)于那些在土耳其有銷售業(yè)務(wù)的美國(guó)公司來(lái)說(shuō)尤其如此。

項(xiàng)目的遠(yuǎn)期目標(biāo)應(yīng)該是著力于了解是否地緣差異會(huì)影響用戶們的生活習(xí)慣,以及如果確實(shí)有影響的話,差異具體是什么。你應(yīng)該時(shí)刻注意在短期目標(biāo)和遠(yuǎn)期目標(biāo)之間取舍平衡,進(jìn)而根據(jù)你的數(shù)據(jù)建立一個(gè)完整的、針對(duì)這個(gè)問(wèn)題的知識(shí)庫(kù)。

最后一個(gè)問(wèn)題是,假設(shè)一切都進(jìn)展得很順利,而且全球很多人都接納了我們的分析結(jié)論,這會(huì)對(duì)人們的行為產(chǎn)生什么影響?這個(gè)問(wèn)題是非常重要的,因?yàn)槲铱偸谴_保團(tuán)隊(duì)成員著力于解決具有最大影響力的任務(wù)。

另外有一個(gè)我也經(jīng)常會(huì)問(wèn)自己的問(wèn)題就是,針對(duì)這個(gè)問(wèn)題我們能做的最邪惡的事情是什么?如果我是一個(gè)居住在火山洞穴里、非常邪惡瘋狂的科學(xué)家,并且我擁有這樣的技術(shù)和知識(shí),我會(huì)用這一批數(shù)據(jù)做什么邪惡的事情?從這樣的角度出發(fā)去想問(wèn)題,你可以獲得很多非常有創(chuàng)意的答案,而實(shí)際上這其中的大部分想法都并不邪惡。但是我覺(jué)得這是一個(gè)開(kāi)腦洞的好辦法。

您剛才針對(duì)數(shù)據(jù)科學(xué)家應(yīng)該如何選擇初創(chuàng)公司給出了建議。我想把這個(gè)問(wèn)題反過(guò)來(lái)——對(duì)于新的初創(chuàng)公司來(lái)說(shuō),他們應(yīng)該如何打造自己的數(shù)據(jù)科學(xué)團(tuán)隊(duì)呢?

這是非常有挑戰(zhàn)性的一件事情。在大多數(shù)時(shí)候,對(duì)于數(shù)據(jù)科學(xué)家在公司里應(yīng)該扮演什么角色這個(gè)問(wèn)題,人們總是見(jiàn)仁見(jiàn)智的。這就意味著,至少公司的創(chuàng)始人和經(jīng)理層需要對(duì)于這個(gè)問(wèn)題有正確且透徹的認(rèn)識(shí)。

也許你想要一些商業(yè)分析報(bào)告、產(chǎn)品分析報(bào)告、計(jì)算一些指標(biāo)?;蛘吣阕约簩?duì)于數(shù)據(jù)有一個(gè)很好的點(diǎn)子——例如類似于推薦系統(tǒng),或者比這還要有創(chuàng)意的東西。但是想要找到一個(gè)人,幫你做出這一切東西,并且他有能力幫助你在公司里建立起一個(gè)數(shù)據(jù)團(tuán)隊(duì),這可不容易。

對(duì)于你所涉及的每一個(gè)數(shù)據(jù)項(xiàng)目,你需要不斷問(wèn)自己以下幾個(gè)問(wèn)題:我正在做什么事?我如何估計(jì)工期還有多長(zhǎng)?這項(xiàng)工作會(huì)帶來(lái)什么影響?

在招聘的時(shí)候,你應(yīng)該做的事情就是尋找那些能快速學(xué)習(xí)的人、有非常多創(chuàng)意的人、能夠靈活變通的人,以及能夠與你公司的軟件工程開(kāi)發(fā)部門(mén)通力協(xié)作的人,因?yàn)樗麄冏罱K會(huì)一起合作。他們需要有能力和運(yùn)維數(shù)據(jù)庫(kù)的人成為好朋友,因?yàn)橹挥羞@樣他們才能從數(shù)據(jù)庫(kù)中獲得所需的數(shù)據(jù)。同時(shí)他們也要能和產(chǎn)品部以及市場(chǎng)部的同事溝通聊天,一同探討問(wèn)題商量產(chǎn)品策略。

這就意味著你也許要考慮那些雖然沒(méi)有20年的漫長(zhǎng)數(shù)據(jù)科學(xué)經(jīng)驗(yàn),但是可以快速學(xué)會(huì)新技術(shù),并且愿意與公司產(chǎn)品業(yè)務(wù)一同進(jìn)步的人。你要意識(shí)到這樣的人最終會(huì)給你帶來(lái)一個(gè)出色的團(tuán)隊(duì),而他們本身也會(huì)慢慢成為公司管理層的一員,成為公司的中堅(jiān)力量。

大部分初創(chuàng)公司的成功招聘案例都是在正確的時(shí)間,找到了最適合公司的正確的人。這背后并沒(méi)有可以列出來(lái)的公式和指標(biāo)——簡(jiǎn)而言之,這是一個(gè)需要雙方都能共贏的事情。

現(xiàn)在很多畢業(yè)生都在糾結(jié)去大公司工作還是小公司打拼,對(duì)此您有什么建議嗎?

我個(gè)人覺(jué)得找小公司是一個(gè)不錯(cuò)的主意。準(zhǔn)確來(lái)說(shuō),我的想法是努力找到一個(gè)在未來(lái)一年以內(nèi)可以與你共事合作,并且能給你帶來(lái)很多啟發(fā)和教導(dǎo),類似于一位出色的導(dǎo)師的人物。但是不要僅僅因?yàn)槟承┬」韭?tīng)起來(lái)很酷就草率地加入他們。最好去那種你覺(jué)得“我在未來(lái)一年可以從那個(gè)公司里學(xué)到很多東西,并且我覺(jué)得在那里工作很快樂(lè),我愿意待更久的時(shí)間”的公司。

在你加入公司一年以后,可以重新評(píng)估一下自己。我還在繼續(xù)學(xué)到東西嗎?我依然喜歡我所從事的事情嗎?如果你對(duì)于這些問(wèn)題的答案都是否定的,那么你就可以考慮去尋找下一個(gè)可以學(xué)到東西的公司了。走出學(xué)校、初入職場(chǎng)的那幾年學(xué)到的東西,將會(huì)對(duì)你的職業(yè)生涯產(chǎn)生巨大的影響,并且實(shí)現(xiàn)你的第一次知識(shí)積累,所以最好去那些你能學(xué)到最多東西的地方。我覺(jué)得,從這個(gè)角度出發(fā)去思考去大公司還是小公司這個(gè)問(wèn)題將會(huì)好很多。

對(duì)于學(xué)生選擇公司,您還有其他什么建議與忠告嗎?

我知道在你們尋找工作的時(shí)候,大部分人都會(huì)優(yōu)先考慮工資待遇和工作地點(diǎn)。我也很重視住在我喜歡的城市里,否則你每天的生活都不會(huì)開(kāi)心,相比于工資,我更看重這一點(diǎn)。但是最重要的一點(diǎn)還是,要選擇一個(gè)對(duì)自己有挑戰(zhàn)性的工作,并且要和能教會(huì)你很多東西的人在一起。

例如,我曾經(jīng)在AT&T實(shí)驗(yàn)室做研究,我非常喜歡那個(gè)地方。那個(gè)是個(gè)無(wú)與倫比的地方,擠滿了聰明絕頂?shù)娜?。但是我不喜歡住在新澤西州,每天通勤往來(lái)于城市花園大道簡(jiǎn)直就是噩夢(mèng)。對(duì)于這個(gè)問(wèn)題,你必須要自己想辦法找到其中的平衡點(diǎn),來(lái)確保你工作的公司是一個(gè)你喜歡的地方,并且能從中學(xué)到很多東西。

相比于你以后幾年的工資,你初入公司的年薪是10萬(wàn)元還是20萬(wàn)元,其實(shí)真的不重要。相比于住得舒心、吃得好、生活愉悅,我不會(huì)太重視第一份工作的工資。

對(duì)于那些有志于成為頂尖數(shù)據(jù)科學(xué)家的人,您有什么建議嗎?

大部分人都懼怕起步的階段,因?yàn)樗麄兒芘乱驗(yàn)槌跞腩I(lǐng)域而犯下一些愚蠢的錯(cuò)誤,進(jìn)而招致人們的笑話。是的,你會(huì)犯下一些愚蠢的錯(cuò)誤,但是實(shí)際上人們往往比你想象的要友好很多,而且就算真的有人嘲笑你,你也不用太走心。

我的建議是,如果你確實(shí)對(duì)于數(shù)據(jù)科學(xué)有興趣,就嘗試去做它!現(xiàn)在網(wǎng)絡(luò)上有這么多可用的數(shù)據(jù)集。我有Bitly公司曾經(jīng)總結(jié)的100個(gè)開(kāi)源的高質(zhì)量數(shù)據(jù)集,你可以在這個(gè)鏈接里找到:bitly.com/bundles/hmason/1。你也可以找到一大堆方便的開(kāi)源API。你可以充分發(fā)揮自己的創(chuàng)造力去做任何事。

所以最好去那些你能學(xué)到最多東西的地方。

嘗試去做一個(gè)最符合你的優(yōu)勢(shì)技能的項(xiàng)目??傮w上,我把數(shù)據(jù)科學(xué)家的工作分為3個(gè)板塊:統(tǒng)計(jì)、代碼以及講故事/可視化。這3個(gè)板塊中你最擅長(zhǎng)的方面是哪個(gè),你就盡量選擇最需要這方面技能的項(xiàng)目。然后下一步,做一個(gè)著重點(diǎn)在你最不擅長(zhǎng)的板塊上的項(xiàng)目。這會(huì)幫助你盡快地成長(zhǎng),學(xué)到新的東西,并且搞清楚自己下一步的學(xué)習(xí)方向,然后順?biāo)浦鄣貙W(xué)下去就好。

這樣做有幾點(diǎn)優(yōu)勢(shì)。首先,你知道數(shù)據(jù)科學(xué)是什么樣的,對(duì)于它的輪廓有了一個(gè)宏觀的概念。大部分?jǐn)?shù)據(jù)科學(xué)家需要花費(fèi)大量時(shí)間寫(xiě)Hadoop腳本,這其中可沒(méi)有什么樂(lè)趣——但是你還是應(yīng)該體驗(yàn)一下這是什么感覺(jué)。

其次,你可以做出一些用于展覽的東西。你可以告訴別人你做了一個(gè)多么酷炫的工作,而人們也會(huì)興致勃勃地聽(tīng)你講述。他們不會(huì)覺(jué)得你一直在做無(wú)用功或者你糟糕透了,他們將會(huì)說(shuō):“哇,這是你做的?太酷了!”而這樣的成功也將會(huì)幫助你找到一份工作。

以我的一個(gè)朋友Hillary Parker為例,她在Etsy的分析團(tuán)隊(duì)工作。在找到這一份工作之前,她針對(duì)小孩的名字做了一個(gè)精彩的分析報(bào)告,揭示了“Hillary”(希拉里)這個(gè)名字在美國(guó)歷史上是如何變得流行的。本來(lái)這個(gè)名字處于正常的緩慢增長(zhǎng)階段,但是在比爾·克林頓成功競(jìng)選成為美國(guó)總統(tǒng)以后,該名字的使用數(shù)量開(kāi)始激增,而最近它又開(kāi)始快速地增長(zhǎng)(希拉里·克林頓開(kāi)始參選美國(guó)總統(tǒng))。我很喜歡用這個(gè)例子說(shuō)明問(wèn)題,因?yàn)槲易约旱拿志褪荋illary。她把這個(gè)分析結(jié)果放在自己的博客上,而最終這個(gè)結(jié)果刊載到了New York Magazine上——我認(rèn)為她做的事情對(duì)于她的求職絕對(duì)有莫大的幫助,因?yàn)檫@項(xiàng)工作充分證明了她對(duì)于數(shù)據(jù)科學(xué)有著清晰的認(rèn)識(shí)。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)