哦哇資訊網

「SaaS播客」nextS6E06. 對話Databricks聯合創始人Reynold Xin

由 zcq 發表于 美食2023-01-07

Databricks是大資料領域的元老公司,我印象中在14/15年那段時間是和Cloudera、Hortonworks齊名的,而18年那兩家已經走下坡路合併了,但Databricks反而這幾年越來越好,和Snowflake成為雙子星。我司也用Spark(或者說它是批計算的業界標準),並且基於它們提出的Lakehouse湖倉一體架構。很有幸能聽到它的華人聯合創始人辛湜的分享。

公司成立初期從大方向上做的3個決定:針對雲、不做數倉(流行的業務)、不做純服務;我覺得是絕大多數產品型創業公司都會面臨的抉擇。但似乎國內的大部分都不是這樣簡單直接的做出選擇,而是在商業環境和堅持初心中搖擺妥協(或者說擁抱變化),所以Reynold的分享和思考更為難能可貴。標題的“長期主義”是很好的概括。

原播客在《科技早知道》S6E06,想要邊聽邊看的可以點選“閱讀原文”或訪問

https://u3cexcdeqf。feishu。cn/minutes/obcnnk3a6313645l425yg6m3?from=from_copylink

。以下文字記錄基本從播客文字中複製,所以採取問題+我總結的原話摘要的形式記錄。

問題:Databricks最開始的時候給我們分享一下可以嗎?

總結:公司成立初期,從大方向上做了3個決定,這3個決定並沒有錯,但是從商業化的角度上有一些很大的阻力。

1.針對雲。

我們考慮雲可以做到更快的部署,而且從軟體的角度來說,軟體維護本身是一件很複雜很麻煩的事情。所以我們覺得雲,未來不管是從對於我們自己部署角度,還是對於客戶的value來說都會比較大。

2.不做data warehousing。

我們覺得data warehouse其實是一個競爭非常激烈的方向,有很多競爭者,就雲廠商本身自己在有對Data Warehouse非常大的投入。我們決定針對 data science, data engineering 還有 AI 這個方向做我們的第一個產品。後來因為資料的大量爆發,然後因為你需要有很多人能夠真正的去了解資料,data scientist這個職業慢慢真的起來了。然後其實也讓我們的第一個產品有一個得天獨厚的優勢,因為根本市面上沒有任何競爭的產品,在最開始。我們在尋找一個新的,但是當時還比較小,但是我們覺得會有就是爆炸性增長的一個市場。

3.不純粹做support或者professional services。

我們Spark當時作為一個開源專案已經小有名氣,很多公司希望直接給你做 support,甚至可以砸比如說1000萬美金。但我們一直都說: no, absolutely no, we don‘t want to,就我們不希望作為 support 或者這個諮詢的公司,我們更希望做一個產品,做一個平臺。

問題:這些決定是怎麼做出來的?

總結:這其實跟Berkeley當時的環境有關,

在雲計算 cloud computing 上有一篇非常有名的論文《A Berkeley view of cloud computing》

。可能有幾萬篇引用,當時就是包括了Databricks的幾個聯合創始人都在上面。他們當時就寫出了一篇未來雲計算會不可避免的會取代幾乎所有的計算。那篇論文字身就是從基礎的economics的角度,為什麼商學院會去讀這篇,它不存粹是一個技術論文,其實就闡述了為什麼未來一定會變成雲計算為主的,所以那個對我們其實有很大的影響。

另外一個是就是Spark 開始之後,我們跟業界有非常多的交流。那個時候我們就碰到了很多很多,你如果要自己設定資料中心是一件非常麻煩的事情,所以也被那些影響。但是我覺得一方面你可以說我們非常有遠見,另外一方面也是我覺得也有一定的運氣成分。因為你可以知道說未來是這個方向,但你很難知道未來究竟會在 5 年之後到來,還是 10 年之後到來,還是 20 年之後到來。

Cloudera其實在最開始2008年成立的時候,之所以名字叫Cloudera,是因為他們也覺得雲是未來。但是在 2008 2009 年的時候,如果你嘗試去做一個雲計算的公司,會頭破血流。除非你是Amazon,你可能也會頭破血流,然後他們就更改了他們的決定。其實他們從當時Cloudera後來的這個Chief Product Officer Charles,可能當時剛從哈佛商學院畢業,Cloudera招了他之後做了很多市場調研,他覺得這個肯定是一個在現在是不可能做到的事情。

然後當然最早的投資者不反對這個事情,對我們也是有幫助的。如果你有投資者每次 board meeting 都在說你們應該去 on premise的話,當然這也非常難讓創始人完全從頭到尾堅持。

《A Berkeley view of cloud computing》這篇論文發表於2009年。商學院看的估計重點是第6章Cloud Computing Economics,有一些關於彈性與遷移成本的計算

問題:能不能講一講苦的時候,你自己內心有沒有質疑過自己或者說是怎麼想法?

總結:

在頭三年我們產品的營收其實遠低於我們做Spark峰會的營收。所以在矽谷有所謂的Databricks或者說Docker有點像賣T-shirt 的公司,因為從community的Spark summit 開大會,賣票的錢都多於產品。

我們過分的依賴開源。當時的想法其實是因為從Cloudera跟Hortonworks的角度,它們已經是非常巨型的大資料公司。但是有一個巨大的問題其實就是Cloudera之所以做了這麼大,很多其實是因為 support,就是做開源做定製,做售後支援。但是那些東西都是跟人來scale 的,就是你需要有更多的這個營收的話,你需要更多的人。

而在雲上,Amazon等三大雲廠商他們可以直接把一個開源軟體拿過來,然後做一些很簡單的封裝,然後把它做成一個 service 賣出去。所以它可以以非常低的價格賣出去。打個比方

我們如果成本是一塊錢, Amazon只需要 1 毛錢的成本

。很多客戶很可能他覺得我非常想用這個開源原廠商的產品,Databricks做了一些新的東西,可以支援Spark。那我在Databricks上做一些簡單的prototype,但是當我需要做大規模部署的,這個時候我當然去找一個最便宜的廠商了。我已經把東西開發完了,為什麼需要去繼續Databricks一塊錢的東西,我去花一毛錢就夠了。而且尤其是對於很多這個生產線上,就像對於大資料來說,你可能需要非常非常多的計算量。所以價格的優勢對於Amazon來說其實是一個非常大的優勢。

還有一個問題就是我們在最早的時候,我們是

非常想做bottom up的銷售

,因為我們覺得後者這個不需要有銷售人員,我們全部都是工程師,

我們工程師當然希望公司只有工程師

。但是因為我們做是非常基礎的data infrastructure,這個基礎設施其實是很難透過比如說一個人漲到兩個人漲到三個人漲到整個公司,比如說幾萬幾十萬人的公司的。越基礎的東西越需要上層的 push,不管是 CIO,VP of IT,或是VP of engineering,需要這樣子的 push。

我們自從大概在2015/16年左右的時候,我們當時就做了兩個大決定。第一個是我們會開始引入真正的

top down 的sales

,到現在我們其實有一個挺大的這個銷售團隊。另外一方面比較重要,從產品的角度來說,就開始考慮怎麼樣可以做一些競爭壁壘。從我們當時的定義,我們提出了這個詞叫 Spark edge。所以在

我們從效能的角度、從scalability的角度、從安全性的角度

,很多企業就真正會比較在意的東西上做了很大的投入。然後這些東西其實變成我們競爭壁壘。

問題:開源為什麼對你們非常非常重要?

總結:因為尤其在基礎設施這一層你需要招人。現在所有公司都在招很多跟 data 相關的人,人才不夠多怎麼辦,你如果去用一個開源的東西,學校裡頭也在教這個開源的專案。比如可能全球起碼幾千家大學都在教 Spark 的程式設計,所以你可以找到很多人才。

問題:你覺得外界發生了什麼事情影響到你們不再苦了?

總結:

到 17 年的時候談下來Azure Databricks的合作。所以 Azure Databricks是一個非常獨特的產品,它雖然由Databricks來開發和運營,但是它是一個微軟的產品。它直接在微軟的所謂的 enterprise licensing agreement 裡面。基本上世界上所有的大企業都跟微軟有這個 ELA。他說我每年比如說有 1000 萬budget已經批給了微軟ELA上了,很多是 Windows Office。但是Azure Databricks的這個 ELA 就導致了客戶可以直接把他們已經批好的Windows office 的budget 轉向到Azure Databricks上。

和Snowflake一樣,試用就需要選一個雲平臺了。

問題:你對未來的展望。是怎麼看的?

總結:

可能2018 年左右,我們看的時候可能客戶有一半的問題跟底層儲存有關,所以這誕生了我們的第二個大的開源專案叫Delta Lake。

我們現在覺得未來會是所謂的

湖倉一體,定義了Lakehouse

這個詞。而且未來的資料架構不會是有一個分開的 data lake跟一個分開的 data warehouse,甚至有其他更多的系統在中間。未來資料架構是有一個統一的資料平臺,這個資料平臺本身可以支援所有的,不管是從 data warehouse 的 workflow 還是這個 data lake 上的 workflow,其實可能簡單一點就是從 BI 到 AI。那麼現在的話,我覺得並沒有一個產品可以說 100% 的支援這些所有東西。

所以在過去一年我們宣佈了一個新的產品叫Databricks SQL。那麼這個東西其實專門針對資料倉庫這一邊的應用,我們並不是去做了一個新的資料倉庫的解決方案,而是我們做了一個新的產品,這個產品在我們現有的平臺上面可以支援可以更好的支援資料倉庫的這些應用,而以此達到我們所謂的lakehouse。

問題:我們今天有很多工程師在大公司工作,你會給他們一些什麼樣的advice?

總結:

沒有所謂的究竟一個人應不應該創業的這個說法,創業在絕大多數時候有可能上限會稍微高一點,但是也會非常的艱難。當時我每年大概就拿了 8 萬塊錢(如果去Google/Facebook可能三四十萬),每天大概工作我可能14/15 個小時,那樣的強度可能持續了,我覺得起碼有 4 年。這不是每一個人都能去做到的。

我其實是比較反感為了創業而創業,你要有能力能夠堅持下來,我覺得你需要有一定的使命感。如果你覺得那個東西是一個你特別有大激情去改善這個世界,我覺得這是一個比較好的動力,這樣才可以支撐你多年非常高強度的工作。然後另外一個是比較重要的是創業的時候有互補的聯合創始人,不是每個人都適合做 CEO,也不是每個人都想做 CEO。

問題:你對招人、招好的員工是怎麼想的?

總結:打比方我想招一個比如說資料庫儲存的tech lead 或者說director,這個時候我們會直接問業界我們知道的做這一方面的專家,然後我們會問他,那請問你覺得什麼樣的人最適合這個職位,給我三個名字,然後我會親自去聯絡他們,然後把他們說服進來。然後每一個一般願意開始面試的時候,其實我可能對他已經有非常深的瞭解了。

第一個你可以招到比較好的人,因為其實面試來說幾個小時對吧,其他人和這個人共事了幾年的話,可能可以給你帶來更大的資訊。另外一個是也比較高效,因為你不再需要去找比如說幾百個人來就一個職位,你只需要找到幾個人,然後說服他們進來。在他們進來的時候可能已經有百分之七十八十的比例,這是一個真正合適這個職位的。

問題:技術轉型職業經理人有什麼方法論?

總結:常見的問題。第一個是因為你做技術為主的時候,你會非常希望做到一些比較影響力大的事情。而當你作為一個管理者的角度來說,最重要的不是你的輸出,而是你整個團隊的輸出。

還有一點就是管理不適合每一個人。但是從一個 IC 變成 manager 的時候,你需要有很大的sell 的能力,你需要去 motivate 不管是你自己現有的團隊還是未來會來加入你這個團隊的人。那麼很多時候其實變成了一個 people dynamics,是需要完全不同的處理的方法。因為人是一個不穩定的系統,而計算機程式是一個非常穩定的東西。

問題:即使是資料這個行業,感覺說不定幾千個資料公司在那邊了。需不需要那麼多幾百個幾千個公司?

總結:我覺得總體來說,從資料 AI machine learning 角度來說,這還是一個比較早期的,整個業界都其實比較早,很多產品都不是很成熟。我說一個很簡單的例子,比如說 monitor 你的 data,然後當你 data 出現異常的時候,給你發封郵件,這是一個非常難做到的事情在現在。(

data observability 資料可觀測性

我覺得其實資料跟 AI 是比Groupon要大很多很多的一個市場,而且是一個高利潤的市場。因為它是一個純軟體的東西,不需要有線下這個規模,所以可能會有更多的公司。但總體來說我覺得是會就是往上,然後會慢慢往下,隨著這個業界越來越成熟。

TAG: Databricksdata我們一個其實