enter image description here

依靠數據分析,買房可以少花40萬。

劉紅閣在北京的第二次買房,是2016年的8月份。她入手后僅一周,北京房價進入了下一次全民瘋狂的上漲通道。據國家統計局數據顯示,2016年9月份,北京新建商品住宅銷售價格曾創下單月同比上漲30.4%的歷史記錄。

怎樣抓住稍縱即逝的買房時機?

其實很簡單。先把歷年北京的房價走勢數據拉出來看看。2012年房價瘋漲后,13年進入橫盤期,14年全年趨勢下行,15年中開始上漲。房價在2-3年的橫盤或者下行后(主要受政策調控影響),會進入下一個上漲通道。觀察半年后,劉紅閣和一個同是數據分析師的閨蜜朋友計劃2016年春節后買房。

朋友出手的時間是2016年4月,而她當時做了一個不太明智的決定,先置換開了近10年的汽車,暑期再入手房子。這一猶豫不要緊,僅僅4個月的時間,房價漲了40萬。

她沒有再糾結就下手了。雖然錯過了很好的時點,但她已經聞到市場上彌漫的不理性味道,預料到接下來可能會有一場血雨腥風的暴漲,并伴隨一系列的強管控。

果然,2017年3月17日,北京出臺了「認房又認貸」、提高二套房首付的「3·17新政」,被稱為北京樓市最嚴厲調控措施。此后,北京陸續出臺大小30條以上的樓市調控措施,假結婚、假離婚、平房、法拍房、信用貸……一個又一個可能利用的「漏洞」都被調控政策堵上了。而她已經輕巧地避過了這場大風。

不僅如此,數據分析還可以發揮保險的最大價值。怎么操作呢?

王淑娟首先會對比各個保險(重疾險、分紅險、基礎保障險等)涵蓋的疾病類型、風險情況、分紅時間等信息。其次,查詢一下各類疾病在不同人群中(男性、女性、年齡段等)出現的概率。然后,綜合考慮每個家庭成員的情況,決定購買哪家公司的哪款產品。

「比如我家小孩兩歲,身體素質很好,生病概率很低,加上我們重護理的理念,決定了在疾病上不會花費太多,所以主要給他購買分紅類的保險。」

找工作,數據分析也可以幫忙

溫融冰會敏銳關注財經新聞中指標的增長率。「如果某個細分行業年增長率高達15-20%,它一定在高速發展,畢業生可以考慮加入。對比于發達國家,宏觀經濟或行業領域變化大于5%的指標都值得關注,如果變化大于20%,往往不是機會就是陷阱。」

讀到這里,對他們的職業好奇嗎?本期圖靈訪談就帶大家了解三位數據分析專家的故事。

劉紅閣博士,百度商業分析規劃部負責人,原埃森哲咨詢經理,專注于數據挖掘、機器學習、數據可視化領域。

王淑娟,阿里巴巴數據分析專家,原埃森哲咨詢經理,專注于企業運營咨詢、數據分析、數據可視化等領域。

溫融冰,菜鳥網絡數據分析專家,原埃森哲咨詢經理,專注于企業戰略管理、財務與績效管理、數據分析等領域。

數據分析師的職業進化論

隨著大數據時代的到來,企業如何挖掘和運用數據的價值推動了數據分析行業的崛起。

三位專家見證了這個過程,他們的職業生涯經歷了從傳統行業的咨詢業務,到結合數據分析的咨詢項目,再到專門化的數據分析部門的一路轉變。

劉紅閣博士目前是百度商業分析規劃部的負責人,她轉入數據分析領域的過程非常具有戲劇性。

當時她是埃森哲的咨詢顧問,獨立承擔了廣東電網公司的物資需求預測項目。項目的難度非常高,取得了很多成果,發了一篇論文,申請到了一個專利。該項目的成功經驗被她也帶到了國家電網公司總部,并在多個省公司進行應用推廣。

在該項目進行的過程中,一個數據挖掘的負責人離職了,當時她的客戶面試了公司提交的多個候選人都不合適,最后竟然決定,讓之前從沒有接觸過數據分析的她來試試看。

這個奇妙的機會是她人生的轉折點。「為什么說人生轉折點,回頭望一望,才發現從事數據分析之前的幾年工作,都不是自己真正喜歡的,只是為了工作而工作。走上數據分析這條路后,我像打開了人生的一道門,愿意付出非常多的時間去鉆研,也忍受得了數據探索的煎熬和繁重的數據清洗工作。可能非常享受發現數據洞見那一刻的美好吧,所有的付出都感覺是值得的。」

不過,在傳統行業,數據驅動業務的實踐還有很多的局限性,為此她加入了百度。在百度的4年多里,她遇到的很多管理者都非常有數據思維,堅持用數據說話。在數據的驅動下,團隊的科學決策水平也在大幅地提升。

相比起來,王淑娟和溫融冰踏入數據分析領域的過程,則是行業數字化發展的水到渠成。

王淑娟的第一份工作選擇了能源領域的管理咨詢。隨著能源領域的信息化,數據積累越來越多,承接的數據分析相關項目也越來越多,她就此契機轉行到了數據分析領域。

后來,她對互聯網公司的快速發展比較好奇,就加入了阿里。「阿里對數據的準確性和實時性都要求很高,所有的業務決策都要有數據分析的支撐,同時每個部門都有專門的數據保障團隊,來確保數據的可用和統一。」

溫融冰的大學專業是工商管理,起初一直在管理咨詢行業。2011年,他負責了第一個完整的數據分析項目,某保險集團公司的客戶分群項目。

當時大數據的理念還遠沒有今天這么廣為人知,那個項目讓他第一次學習到,如何充分利用企業內部明細粒度的數據,系統性地指導市場、銷售、和運營決策。此后,受咨詢行業「數字化變革」的影響,客戶的咨詢項目都跟數據分析有關。

后來,緣于對物聯網數據的興趣,加上身處杭州,他加入了阿里體系中和物聯網相關性最高的BU,菜鳥網絡。接觸到了更豐富的數據應用場景、更便利的數據基礎設施(包括數據倉庫與分析工具)。

從數據破解謎題

「做數據分析像登山,到山頂的路有很多條,但是最短路徑往往只有一兩條,經驗豐富的人,更容易找到它們。」

他們通常的工作場景是,與業務團隊緊密配合,通過數據分析的手段(產出業務分析報告)洞察和診斷業務風險,為決策及運營提供數據支持。

聽起來是不是很神秘?像福爾摩斯一樣,輕巧地破譯藏在數據中的線索。

的確如此,破案的第一步,就是將擺在面前的事實仔細梳理,找到要解答的問題是什么,也就是作案動機。然后才能從正確的方向,定位兇手是誰。

理解業務就是理解動機。

溫融冰說:「一般的困難總是源于是否充分理解了商業問題。新人容易馬上動手開干。我建議,還是盡可能地理解對方想通過數據分析解答的商業問題是什么,這樣會事半功倍。不要擔心面子問題,追問下對方的真實訴求。」

既然找到了問題所在,是時候展現真正的實力了!

哎,先等一下……破案之前,一個問題迫在眉睫:如何擁有和福爾摩斯一樣構造精密的大腦?

答案,似乎不能。

But!即便不能仿造他的記憶宮殿,我們只要學會控制自己的大腦,構建思維框架,就能使分析更精準,更有效率。避免毫無頭緒地思考浪費大量時間和精力。

在這方面,溫融冰回憶:「我在 Capgemini 的項目經理 Lion 對我影響最深,是他真正地訓練和傳授我:結構化思考、深入淺出的表達。」

enter image description here

然后,就可以利用沉淀的業務分析方法論,結合最新業務情景,大膽假設分析思路(復雜分析任務需要設計分析框架),開展分析,進而產生結論。

最后,將結論與業務方溝通確認(有時需修正分析思路,重新開展分析),并就可行性解決舉措進行商討,最終匯報結論。

其中,對數據進行可視化分析時,圖表等工具只是一種表達方式。

王淑娟提醒:「不要為了好看而做報表,不要追求復雜的圖,傳遞的結論、分析的邏輯更重要。」

這就是通常的數據分析流程。劉紅閣總結:「同樣的一個數據分析需求,新人可能會因為缺乏對業務的深刻理解、有效的分析思路或者完備的分析框架,無頭蒼蠅一樣亂試,花費了很多時間,但無法在有限時間內產生有意義的數據洞見。

「有經驗的數據分析師,往往先不會著手取數、分析數據,而是花比較多的時間了解背景、梳理和設計思路。做數據分析像登山,到山頂的路有很多條,但是最短路徑往往只有一兩條,經驗豐富的人,更容易找到它們。」

打磨數據原石

羅素:「一切偉大的著作含有乏味的部分,一切偉大的生活含有沉悶的努力。」

和數據打交道,枯燥是無法避免的。在產生數據洞見之前,他們經常被海量無意義的數字淹沒。數據分析就是靜下心來,沉潛到深海,尋找他們要的那串珍珠項鏈。

這個過程中,嚴謹至關重要。劉紅閣說:「多年的數據分析工作從業經驗,訓練了我敏銳的數據洞察力和嚴謹的邏輯思維能力。工作時非常‘強迫癥’,這可能和我的角色有關系,我出口的數據 insights 是高層做實實在在的決策用的,決策的結果與百度收入密切掛鉤,正確與否非常易于檢驗。」

既然一切結論都是建立在數據之上,基礎就要打牢。溫融冰說,自己為了快速了解某塊業務,甚至會用最笨的辦法——抄寫或重復數據,來增加熟悉程度。

王淑娟說,最常遇到的問題是數據口徑不清晰、來源不清楚,導致分析結論不敢用。比較好但也比較費時間的方法是層層追溯,一直到系統層面,查看數據是如何被記錄、被沉淀的,了解數據的加工鏈路,確保分析結論的可靠。

enter image description here

前幾年,他們用 Excel 處理分析需求,每天都要搞表格搞到半夜,還因為數據量大總是電腦崩潰。

2014年,他們廣泛接觸、比較試用各種敏捷 BI 工具,最后選中了 Tableau。為便于項目組的新老成員快速掌握,寫了一份手冊。因緣際會之下,這份文檔變成書籍得以出版,也就是現在的《人人都是數據分析師》這本書。

Tableau 的確是一個非常有魅力且值得推薦使用的分析工具,可以節省處理數據的大量時間。

王淑娟說:「對于初學者,最實用和最通用的功能當然是快速成圖和圖表聯動功能,能夠幫助我們在繁復瑣碎的數據中,快速發現規律、特征;自助分析功能也能幫助初學者去挖掘數據的分布等。

「進階用戶可以嘗試Python和R的集成功能,以及Tableau的表計算、各種函數。Tableau內嵌的豐富的函數,其實可以幫助我們快速實現很多復雜的操作,值得深入學習和挖掘。」

劉紅閣也分享了自己的心得:

  1. 使用表計算時,需要重點關注計算依據和相對級別,否則易出錯

  2. 一個工作表中,最好不要同時使用超過3個「集」,否則可讀性差,也易出錯

  3. 進行可視化分析之前,先對數據概況進行全貌的了解,包括數據分布、缺失值和異常點

溫融冰提醒,使用 Tableau 必須時刻牢記:input 讀入數據的粒度,即最小的觀測值是什么。

用戶在 Tableau 中簡單拖放即可分析、探索數據,其背后的原理是將動作還原為 SQL 來匯總計算數據。與程序語言的區別在于:它不展示處理過程。因此,如果因粒度搞錯而結果出錯,用戶自己往往不容易查出。

數據無終,卓越無止

工作占據了我們一生的大部分,因此要選擇適合自己的職業,找到自己樂于投入的領域。

如果想要成為一名優秀的數據分析師,劉紅閣說:「首先,要真心喜歡這個職業。興趣是最好的老師,對數據分析師這個職業來講,尤其重要。為什么?因為數據分析師干的是苦活累活體力活,要花費百分之七八十的精力來獲取和清洗數據,真正做分析和寫報告的時間是比較短的。如果沒有真正的興趣,是很難熬的一份職業,我會勸大家不要走這條路。

其次,要有很強的邏輯思考能力。業務的復雜程度很高,數據分析師要解決的,不是產出一個數據報表這么簡單的事情——否則 PM 或者 RD 自己都做了,就不需要這門職業了——而是非常復雜的業務問題,所以需要有超強的邏輯思考能力,抽絲剝繭,進行業務的分析與診斷。

最后,要有悟性。很多同學具備如上兩個特質,但缺少悟性,那么數據分析這條路對他們來說,天花板就很低,在百度升到 P6 可以,再往上就非常難。悟性這個詞聽起來有點抽象,其實就是說對數據有很高的敏銳度。見到數據,會關聯到具體的業務場景,主動思考和探究業務的本質或本源問題,提出想法,利用數據的手段,去改造、去解決、去提升業務。」

enter image description here

在此基礎上,王淑娟說:「要分析、定位自己的興趣所在,是在技術領域還是業務分析領域。如果是技術領域,可以多研究數據架構、存儲方式等,往數據倉庫方向發展;如果對業務結果更感興趣,建議多嘗試業務領域,培養對業務、數據的敏感度,往業務分析、商業分析領域發展。」

對于剛接觸數據分析的新人,他們也分享了一些工具學習方面的建議。

劉紅閣說:「新人的話,我建議工具選擇Python(如果已經很熟悉R,那就用R也可以)、MySQL、Tableau。

  • Python是開源工具,Pandas是操作數據的庫,NumPy和SciPy是高效進行數字和矩陣計算和轉換的庫,Scikit-learn是機器學習的庫,這幾個庫都非常常用,要熟練掌握。

  • MySQL的學習我就不用多說了,這是必備的數據獲取語言。

  • Tableau 是高效敏捷的數據可視化分析和探索性分析工具,精通它,可以讓你的分析效率大大提升。」

溫融冰說:「工具學習就是要多使用、多練習。所有實踐性的知識只有通過練習才能真正地掌握。」

此外,要培養閱讀的習慣。他平時喜歡閱讀政治哲學,及人文藝術等領域的內容,追求通識教育或知識結構的平衡。

不僅如此,劉紅閣說:「數據分析需要多個領域的行業知識(經濟、金融、互聯網、統計、AI,等等),多讀書有助于打開視野,也能將本職工作做得更好。」

插圖來源:Pixabay

題圖來源:Unsplash

enter image description here

enter image description here

掃一掃,京東購

《人人都是數據分析師:Tableau應用實戰》第2版

作者:劉紅閣、王淑娟、溫融冰

簡單易用,拖放成圖,無須統計、計算機背景,即可進行可視化分析,分秒間讀取,快速引擎處理,幫你看見并讀懂大數據。