作者 | 彭鋒
策劃 | 褚杏娟

根據信通院數據,2019 年,我國數據產量總規模為 3.9ZB,同比增加 29.3%,占全球數據總產量(42 ZB)的 9.3%。而 IDC 中國預測,2025 年中國大數據產生量有望增長至 48.6 ZB,這已經超過了 2019 年全球數據量的水平。這對大數據行業來說,既是機遇,也是挑戰。

越來越大的數據量,加上數據敏感和脆弱等的特點,數據治理一直都是一個困擾企業發展的問題。有開發者表示,每個人都在談論數據治理,卻沒有人真正知道該怎么辦。為此, 采訪智領云聯合創始人和 CEO 彭鋒博士 ,一起聊聊數據治理和大數據行業里的那些事兒。

數據治理有哪些難點
Q:在現在的企業數據治理上存在哪些痛點? 為什么會出現這些問題,以及當前情況下是怎么解決的?

A:數據治理和數據開發一直都是困擾著企業的難題。Google 最近發了一篇文章表示,雖然 Google 在 AI 算法上非常厲害,但如果大家都只想搞算法,沒人想去搞數據,那算法是沒有用的。比如進來個臟數據,算法一點用都沒有。但搞數據的工作,大家都認為很“臟”、很費神,算法更高大上。

數據的治理和數據質量非常重要,整個數據開發流程也非常重要。算法是最后讓數據產生價值的很重要的一部分,但是如果沒有前面的準備工作,那么數據質量和數據開發效率就無法保證,后面算法也發揮不了作用。很多公司,包括 Google、Twitter 和 Facebook,他們的算法之所以有那么大的作用,就是因為他們數據的基礎架構做得好,所以他們才能保證算法的有效性。

那么這個難度在哪呢?現在,數據管理、治理工具和數據治理體系暫時還沒有一個成形的體系,所有公司的數據質量、數據開發工具基本都是拿開源組件自己臨時搭建。

整個數據的測試流程中,大家很少聽說數據有 CI/CD,數據有沒有 CI/CD?數據的 ETL 程序有沒有 CI/CD?數據開發完了在哪測試?能不能在生產數據上測試呢?如果程序是對的,那數據改變后我的程序語義還能夠保證它的正確性嗎?企業在實際生產時,這些問題都是在大規模使用數據時會經常碰到。由于數據的使用,大家覺得大數據好像搞了很多年,但其實到現在大數據的基礎才逐漸成熟,大家也才意識到,數據組織后的數據質量是更重要的。

所以,我覺得現在正是將數據質量、數據治理和整個數據開發體系的工具提到前臺的好時機。以前數據基礎還沒有成熟,提這個可能有點早,但現在越來越多的企業,特別是頭部企業發現了這個問題。

硅谷的很多公司,包括在國內的頭部公司,他們早就遇到了這些問題,他們自己內部肯定是有解決方案的。產品化的事情也有人在做,大家現在看到的開源工具里像 Spark、Kafka 都很成熟,做得都很好。但是,像 DataOps 這種跟企業的底層數據情況和數據的基礎架構緊密相關的工具比較少,DataOps 工具剛剛出現,現在也才獲得大家的關注。

什么是 DataOps
Q:現在越來越多的技術和廠商都在產品中會提到 DataOps,但是可能目前大家對 DataOps 定義還沒有很統一的定義。那么,到底什么是 DataOps?為什么它現在會被很多企業青睞?

A:DataOps 是從 DevOps 借鑒的一個理念。可以理解為 DataOps 是把 DevOps 的一些理念映射到了數據開發上,它們的很多觀點是可以一一對應的,如開發及運維、云原生、微服務化、CI/CD,這些都可以在 DataOps 里找到,如果你的 DevOps 里沒有這些概念,就要考慮下你的開發流程是不是符合最佳實踐。但 DataOps 與 DevOps 也有區別。DataOps 是想處理數據,而在 DevOps 里是不需要處理數據的,它主要是做應用的開發,應用的 CI/CD、發布及運維。但就像剛才說的,DataOps 實際上屬于一個比較早期的概念,大家對它的解讀還是會有不一樣。

在 DataOps 里面有很重要的一點,就是要處理數據的各種不可預知性。數據語義是一個難題,它沒辦法在 CI/CD 里被容易定義,不是沒有辦法,但很困難。之前大部分原生大數據組件開發時并沒有考慮到這個規范。

DevOps 也經過了很長一段時間的演變,像 Git 逐漸成為規范,微服務基本上都是標準的組件。大數據組件體系架構特別多、選擇特別多,發展也特別快,現在的 Spark、流數據,Flink,卡夫卡,底層基本上也是 K8S、Hadoop 和 Hdefs,這些基本上可以形成標準化。那么,現在就是做 DataOps 一個比較好的時候。

DataOps 的工作主要有五個方向。

第一個是任務調度。主要包括云原生調度、容器的調度,這跟 DevOps 是一樣的。第二個是數據安全。數據安全以前基本不在 DataOps 的考慮范圍,也不在數據開發的范圍內,但現在數據安全很重要。第三個就是數據管理和數據門戶。大家可能會說原數據管理不都好多年了,但以前的原數據管理主要是針對關系型數據庫,關系型數據庫對原數據的管理相對容易,只要到數據庫里把原數據爬出來就可以。但現在有流數據、非結構化數據,還有 TaiDB 等,各種各樣的原數據怎么樣去管理?血緣管理更復雜了。之前是幾個 SQL 之間的血緣管理,現在關系到各種各樣的查詢、各種各樣的系統、數據門戶跟 MapDatas 是一樣的。第四是數據檢測的可視化。DevOps 里有很多可監測到的指標,數據層面也一樣。用多少資源、花多少時間、創造了多少價值,之前都是一個黑盒子,但 DataOps 的整個數據都是端到端的,相關指標可觀測、可管理。第五就是集成開發。所有的工具必須是可集成的,不可能做一個工具負責血緣管理,再做一個工具負責調度。

我認為,DataOPS 里面必須具備這五個工具體系,如果你的 DataOps 體系里面缺了任何一個,我都覺得是不完善的。

Q:DataOps 如何做持續測試?

A:數據開發、數據程序的測試一直是老大難問題,甚至頭部大廠整套流程做下來也是現在非常困難的。現在 DevOps 里有一個很有意思的觀念,就是把集訓資源的管理全部用 Code 來管理,大數據也一樣。美國有一個很火的公司叫 DTB,它是要把所有的 ETL(數據倉儲技術)流程做成代碼管理,將 SQL 的所有轉換變量化、代碼化,將所有 ETL 程序間的關系、血緣全部用代碼的形式來進行管理。可以說,不只 SQL 是代碼,整個調度也都是代碼。所以,DBT 的整個 ETL 程序可以被放到 Git 里面。用戶可以在指定的 data  source 的測試環境中可以測試,可以到 Data 生態環境中直接切換一個 Data  source,將其變成生產環境,所以它允許支撐 ETL 流程的 CI/CD。將所有 ETL 程序之間的依賴全部代碼化,這就是 DTB 的一個思路。

除了 ETL 之外,我們現在做的事就是把所有大數據組件里面的關系、程序全部代碼化,這是未來的必然趨勢。

DataOps 與云原生數據中臺的關系
Q:DataOps 與云原生數據中臺是什么樣的關系?他們目前各自的發展情況如何?

A:國內數據中臺也提了兩三年了,有成功的案例也有失敗的。我們在這方面也做了很多探索。我們的觀點是,數據中臺絕對要做,但 DataOps 是實現數據中臺的一個最好的方法論和工具體系。

這跟 DevOps 是一樣的。一個業務系統可以使用 DevOps 方法來做,也可以使用傳統方法去做,兩種方法最后做成的業務系統可能都差不多,但這只是開始的時候差不多,后面的持續迭代、持續運維的時候,就能看出來 DevOOps 的優勢了。數據中臺也是一樣,它是給大家提供一個數據開發和運營的底座,開始你可以用各種各樣的方法去做一個數據平臺,但是后續迭代和不斷發展的時候,DataOps 就成為最合適的一種方法。DevOps 提倡的是賦能和自助,通過 CI/CD 持續發布,開發工程師自己來做運維測試,DataOps 也一樣,也是提供工具讓各個業務部門等數據使用者,能夠在中臺上拿到自己需要的功能。我們認為這是 DataOps 和數據中臺的關系。

Q:企業如何去做云原生數據平臺的改造?整個過程可能會面臨哪些問題?

A:我覺得,現在云原生的數據中臺還是一個比較有挑戰性的課題,但也是個必然的趨勢。很多企業的數據平臺效率非常低,因為傳統大數據平臺使用的 Hadoop、卡夫卡等都不是在云原生的方式下開發,資源使用效率低、管理復雜,但云原生會大大降低整個系統的管理復雜度,提高系統的使用效率和運營效率。

這個過程中會面臨的困難,主要是人才問題。這個技能的門檻比較高,需要研發既懂云原生又懂新技術,這樣的人才缺口還是挺大的。但這也有個好處就是,云原生產品的標準化程度比較高,這樣容易做出標準化的產品讓大家使用。舉個例子,以前裝一個大數據平臺需要直接面對底下的物理及虛擬機,但各種各樣的配置,不同的操作系統、環境和網絡,所有這些都得去管理。K8S 的出現就讓大家不必再考慮所有的底層組件,只要跟云原生這個體系對接就可以了。這是一個很好的機會,所有的企業一定會看到,但這個過程肯定是需要時間的。

Q:您之前多次提到過“數據中臺方法論”,這個方法論具體都包含哪些內容?

A:這個方法論的主要目的就是追求效率。我們國內很多客戶的大數據平臺的資源使用率大概都是 15%-20%,但 Twitter 的自然使用率一般能達到 50%-60%,而且還有各種各樣的彈性擴展、自動容錯等云原生功能。

了解這個之后,需要做到以下四點:

第一,選擇合適的工具和平臺。這個是基礎,選不到合適的架構工具,也就不存在效率了,所以如何選擇合適的平臺工具很重要。

第二,要有一個完善的頂層架構設計。因為數據平臺要把大家的數據接進來,與業務系統對接起來才能產生效果。DevOps 分布式的開發,集中式的管理,但這個集中式管理不是靠人,而是靠體系和工具。

第三,業務驅動。為了大數據而大數據一般成功不了,一定是可以解決業務問題的才能走到最后,解決不了業務問題的數據平臺是偽命題。解決業務痛點之后,還要賦能業務。要把業務部門引入進來,不斷使用這個數據平臺,獲得業務部門認可后這個東西才能走。

第四,要有價值衡量體系。如何量化產生的價值,很困難但是也很重要。我們一般要求決策方、業務方,技術方和數據平臺等各方面職責明確,避免后面出現越來越多的問題。

DataOps 應用
Q:2018 年,高德納把 DataOps 納入了技術管理成熟體系曲線里面,DataOps 被正式接納和推廣。三年過去了,目前有什么成熟的應用案例出來嗎?

A:DataOps 在云原生出來之前就有,但可能沒有叫這個名字。頭條、騰訊等大廠們都有自己的一套 DataOps 體系,Twitter 等硅谷公司也有,那為什么現在才提出來?因為這個東西要產品化。雖然大廠都有 DataOps 體系,但是將近一百人的數據團隊,eBay 大概有三百多人,一般企業很難請得起這么多高薪的人才。

現在 DataOps 火了是因為大家都需要,數據價值不是大廠獨有的。但橫梗在前的成本問題怎么解決?這就需要 DataOps 工具將數據價值開發平移化。為什么稱為云原生的 DataOps?因為只有云原生技術統一了各種各樣的硬件環境、開發環境、發布環境、運維流程等等之后,DataOps 才可以將聚焦在數據開發、數據監控、數據管理、原數據和數據安全上。

Q:您在 Twitter 的時候,一個主要職責就是讓公司所有的人避免重復開發數據組件。這個需求是在一個什么樣的背景下產生的?

A:這個就是很重要的不要重復造輪子的問題。重新造輪子會造成資源消耗,然后減慢開發速度。要避免不重新造輪子,那么就必須知道現在有什么“輪子”,但很多企業并不知道自己有什么“輪子”。DataOps 很重要的一點就是原數據管理,它的原數據管理比原來的要更廣泛,它可以知道整個企業有什么樣的數據功能。

更重要的是,企業重新造輪子,一旦兩個輪子造得不一樣,會把這個車開垮。我們原來做數據門戶,就要求所有的業務部門和數據分析師必須做統一的接口,然后發現有兩個部門就在重復造輪

Q:DataOps 會有開源生態嗎?

A:目前是逐漸成熟的過程中,還沒有成熟到大家都可以使用的端到端產品。

我們之前公眾號有篇文章講到,硅谷的大概十幾家公司,每個公司都有自己的數據門戶和產品,但是沒有成熟的產品。今年 6 月份左右,Linking 將自己的數據門戶產品開源了,也有人在做血緣管理,但都是這兩年才起來的公司。這個生態在逐漸形成,但是遠遠沒有到達成熟的階段。

Q:現在,DataOps 還解決不了哪些問題?

A:我覺得,當前 DataOps 沒辦法解決業務價值的挖掘問題。DataOps 實際是降低了數據使用門檻,讓更多的業務人員可以直接開發他們需要的數據并將這個開發成果給大家使用,這在以前必須要依賴數據科學家或者數據工程師。但是,如何把這些數據與業務結合起來、用數據去促進業務,這不是 DataOps 能回答的問題。我們只是賦能,但是真正怎么樣讓你的數據去促進企業的業務發展,那一定需要企業懂自己的業務。

數據行業人才缺乏
Q:企業在使用 DataOps 的時候,應該如何組建這樣的一個團隊呢?

A:DataOps 工具并不是要取代數據工程師、數據科學家,或者 DBA 和數據分析師,它讓他們更有效率,我知道在座的不知道有多少是這個數據科學家,或者是數據工程師。

除了 DBA,數據行業一般有三個比較重要的角色:數據工程師,負責搭建數據平臺;數據科學家,研究數據的潛在價值,用學習模型來形成用戶畫像、產品推薦或自動異常檢測等;數據分析師,更多從業務角度做數據分析。但是最近出現了一種職業叫機器學習工程師,他們的任務是提高算法效率,把數據科學家們開發的模型以生態化的形式,更高效地完成。

Q:這些人對 DataOps 是什么態度呢?

A:他們當然歡迎。以前數據科學家和數據分析師發布任務時要依靠數據工程師幫他們寫 ETL 任務,現在 DataOps 可以幫助他們自動完成。我們就是讓大家可以睡個好覺,讓每個人的聰明才智可以發揮在他最能發揮的地方,而不是整天吐槽后臺、吐槽系統。

Q:數據管理這一類的崗位,人才供給情況怎樣?

A:現在很缺,非常缺。這個行業需求本來就比較大,加上要做數字化轉型,同時門檻比較高,進入這個行業基本不愁找不到工作。同時這個行業里,經驗非常重要,越有經驗越吃香。中國美國都一樣,所有想做數據項目的第一個問題就是找不到人。

數據安全還是要靠規范
Q:中國和美國的大數據市場有哪些不同?

A:我覺得現在的差別已經不大了。現在國內的新型企業很追求效率的追求,對先進的方法論也很認可,這個跟美國的公司基本上沒有太多區別。雖然我也沒有太多接觸過美國的傳統企業,但是美國傳統企業接觸這種理念其實也都比較緩慢。但國內新興的企業、企業家們,都很認可數據價值,認可云原生理念,也認可專業的企業服務。

要說區別的話,主要還是體現在兩邊的商務模式上。在美國,數據工程師、數據科學家有很大的采購權,幾萬美元、十幾萬美元產品都是實際做事的人來采購。但在中國,采購的決定權是從上往下的。這也是為什么美國的開源比中國的更賺錢,開源打的就是中間這層真正使用的人,他們可以直接報告說需要這個開源公司來提供服務,上面一批就完了。但中國企業要申請個幾十萬的項目,就得從上往下批。

Q:國內市場發生了哪些變化?

A:以前大家做大數據好像是因為這個是一個風口,現在沒人是為了大數據而大數據,大家都認可了大數據真的能夠產生價值,沒有人會懷疑大數據的價值。但是大家對大數據怎么落地還不是很清楚。所以,我覺得如何做出更好的工具降低門檻,更快地產生數據價值是現在企業面臨的一個挑戰。

這幾年,因為大家對云原生技術的認可、對開源體系的擁抱,國內的技術生態比以前更加有活力。大家尤其認識到了開源對整個行業的推動作用,很多開源公司也取得了很好的成績。我們雖然現在沒有產品開源,但我們也有開源計劃,希望能夠為整個技術發展做一些貢獻。

Q:去年的大數據藍皮書也顯示了一個數據,中國的數字經濟指數在 G20 國家中排名第一,但安全指數排到了 14。據您的觀察,目前國內在數據安全治理方面存在哪些問題?

A:數據安全費錢,不產生直接價值,一般企業都不愿意做這個事。比如要把幾千臺機器里面所有關系到用戶私有信息的數據集全部找出來,這件事產生不了任何積極價值,但它是非常重要的。Twitter 上市的時候,我負責做數據合規時,整個團隊花半年多的時間做數據治理,投入相當大。

這就一定需要用規范來要求企業數據必須合規,這也是行業發展到一定階段需要處理的事情。數據不規范可能無法出國做生意,老百姓也就沒有安全感。對 DataOps 來說,企業可以直接把合規的規則實現在 DataOps 體系里,讓數據質量等工具幫助企業完成一些合規檢查。但合規是與行業緊密相關的,比如銀行的數據要合規,那么就會有專業團隊把銀監會合規的標準轉換成 ETL 查詢工具,再轉成合規報告。所以,合規會納入到 DataOps 這個體系里面來,但是需要專業的團隊來做。

Q:最近發布的《數據安全法》對大數據企業有什么影響?企業如何加固數據安全?

A:我覺得是好事。所有的企業必須要注重自己的數據合規和數據使用方式。這對大數據企業來說是好事。

傳統方式做數據合規管理比較困難。我們觀察到,很多企業使用的 Hadoop 是不安全的,因為一旦用了安全的 Hadoop,還得用安全的卡夫卡、安全的 Spark 等,所有的組件都要是安全化的,那么管理的復雜度要高很多。企業在建設之前,就應該把數據安全、數據合規問題考慮進去,后面補課是比較困難的。

Q:大數據行業現在面臨著哪些挑戰?未來的發展形勢如何?

A:大數據還是需要規范,需要一把手的認可和支持。現在很多企業的一把手知道數據的價值,但是不知道該招什么樣的人,該怎么樣去推進數據項目的落地,使其真正產生價值。國內現在對數據平臺價值的衡量還是一個黑盒子,一個大數據平臺到底產生了多少價值沒有辦法衡量。所以一把手的思路和對整個數據架構的規范體系建設,決定了很多大數據平臺的發展。

未來是 AI 的世界,AI 的底層就是數據。不管是個人成長還是公司的成長、企業的成長,基本上都是數據驅動,數據驅動讓生活更高效、生產更高效,放大個人價值。這是一個很值得投入的行業。

點擊閱讀原文訪問 官網查看更多精彩內容

 
PHP 是最糟糕的編程語言?
Hadoop 生態里,為什么 Hive 活下來了?
2021 年開源報告:Kubernetes需求猛增,云和容器技術首超 Linux 成最受青睞技能
三個月沒拿到工資還被以“薪水過高”解雇,程序員刪除系統數據予以反擊
 

 活動推薦

 ??

 

 


【社會觀點】 吸氫氣就能抗癌又防衰?沒這麼簡單【專家解答】 不惑之旅:王憶如怒扇林婉柔,簡單尷尬了,馬總當眾宣布她是女友【新聞新知】 斛珠夫人:帝旭鐘愛紫簪,為何要納海市為妃?竟是與方諸一場交易

 

arrow
arrow

    v26fj5du 發表在 痞客邦 留言(0) 人氣()