上云=便宜,不少人腦子里都有這么個(gè)簡(jiǎn)單粗暴的等式。這種拋開(kāi)場(chǎng)景談結(jié)論的做法,很容易誤導(dǎo)部分對(duì)云不太熟悉的人。
當(dāng)然,我們能理解云這個(gè)概念在中國(guó)推廣早期階段:拿便宜說(shuō)事雖可恥,但有用。但現(xiàn)在這階段早過(guò)了,我們來(lái)刷新一下。
今天這篇,就是給各位CXO大佬認(rèn)真算算上云這筆賬。努力讓大家上云之前心里很有數(shù)。我們給出七種視角,各位大佬根據(jù)企業(yè)自身情況做判斷:
- 實(shí)際支出成本
- 浪費(fèi)的成本
- 隱性成本
- 機(jī)會(huì)成本
- 潛在風(fēng)險(xiǎn)帶來(lái)的可能損失
- 潛在機(jī)會(huì)帶來(lái)的可能收益
- 企業(yè)現(xiàn)金流
先說(shuō)結(jié)論:
1. 企業(yè)上云并不是直接把本地?cái)?shù)據(jù)中心生態(tài)系統(tǒng)搬到另一個(gè)地方,是一個(gè)涉及資產(chǎn)與成本,當(dāng)下與未來(lái)的綜合決策,是否便宜取決于具體應(yīng)用場(chǎng)景;
2.算賬這件事,并不是一場(chǎng)本地和云之間的battle,混合云是企業(yè)最常用的形態(tài)。畢竟,小孩子才做選擇,大人全都要。
但是本地和云還是有根本的差別,兩者站的視角不同,關(guān)注的要素自然也不一樣。立足于本地,是從一個(gè)中短期靜態(tài),長(zhǎng)期動(dòng)態(tài)的視角,最關(guān)心的是公司既有資產(chǎn)利用率最大化。立足于云端,是從一個(gè)貼合業(yè)務(wù)需求曲線持續(xù)動(dòng)態(tài)變化調(diào)整的視角,追求的是公司業(yè)務(wù)成果的最大化;
3. 云的成本結(jié)構(gòu)高度依賴于自動(dòng)化和智能化的運(yùn)營(yíng)能力。如果全手動(dòng),肯定不便宜;
4. 效率的提升帶來(lái)TCO的降低才是計(jì)算云成本的正確思路。(TCO-Total Cost of Ownership 總擁有成本:包括資產(chǎn)的所有關(guān)聯(lián)成本)
實(shí)際支出成本
實(shí)際支出成本:看得見(jiàn)摸得著
這一塊過(guò)于直接,大家算得也是最多的,就不展開(kāi)了。
本地指的主要是基礎(chǔ)建設(shè)成本和維護(hù)人力成本,包括:硬件,人力,水電,機(jī)房,機(jī)架,再加上硬件升級(jí),軟件升級(jí)等等。
本地建設(shè)的時(shí)間維度我們放到隱性成本里。
云上的資源和服務(wù):用戶根據(jù)需要買(mǎi)云資源和需要的服務(wù),管理維護(hù)升級(jí)都云廠商來(lái)管。當(dāng)然,IT專(zhuān)業(yè)人員還是需要的,這個(gè)后面我們會(huì)講到。
浪費(fèi)的成本
本地的浪費(fèi)
A.需求波動(dòng)不可測(cè),不是浪費(fèi)人,就是浪費(fèi)機(jī)器
為了保證最大化本地資產(chǎn)利用率,本地到底需要建設(shè)多大規(guī)模的數(shù)據(jù)中心幾乎不可能準(zhǔn)確預(yù)測(cè)。隨著項(xiàng)目數(shù)量的增加,項(xiàng)目進(jìn)行的不同階段,需求量往往會(huì)出現(xiàn)很大波動(dòng)。通常,使用率很高的階段與很少使用或不使用的階段交替出現(xiàn)。

這張最初源自Cadence的圖,幾乎完美詮釋了這種波動(dòng)導(dǎo)致的浪費(fèi)情況。
黃色表示本地資產(chǎn)規(guī)模,藍(lán)色區(qū)域表示資源需求量。過(guò)相對(duì)長(zhǎng)一段時(shí)間會(huì)追加一批機(jī)器,再過(guò)一段時(shí)間發(fā)現(xiàn)不夠了會(huì)再追加一批。
在01和02兩個(gè)時(shí)間段,不是研發(fā)人員因?yàn)闆](méi)資源可用,只能排著隊(duì)喝著咖啡苦苦等待。就是需求量下來(lái)了,大量資源被閑置。
雖然這張圖是半導(dǎo)體行業(yè)大佬畫(huà)的,但有非常廣泛的適用場(chǎng)景,尤其是在HPC高性能計(jì)算領(lǐng)域,比如藥物研發(fā),CAE工業(yè)仿真,人工智能等等。
B.不同部門(mén)需求虛報(bào),浪費(fèi)機(jī)器
一方面,從申請(qǐng)資源到分配往往有一定時(shí)間差,另一方面還是因?yàn)樾枨鬁y(cè)不準(zhǔn)。部門(mén)向公司提出申請(qǐng)時(shí)往往傾向于多申請(qǐng)一些,或者干脆要求獨(dú)占資源,以確保本部門(mén)在需要的時(shí)候有足夠的資源。但實(shí)際利用率卻未必高,造成浪費(fèi)。
C.本地資源的利用效率和公司IT專(zhuān)業(yè)人員的技術(shù)水平也直接相關(guān)
云上的浪費(fèi)
A.云的收費(fèi)模式和本地完全不同,不同云廠商之間也有不少區(qū)別。相當(dāng)一部分企業(yè)可能在還沒(méi)搞懂規(guī)則的情況下,費(fèi)用就上去了。
單說(shuō)云端實(shí)例資源,常見(jiàn)計(jì)費(fèi)模式分為三種:
預(yù)留實(shí)例:相當(dāng)于批發(fā),買(mǎi)定離手。主要針對(duì)中長(zhǎng)期穩(wěn)定需求,優(yōu)點(diǎn)是價(jià)格整體比較低,缺點(diǎn)是資源必須長(zhǎng)期持有,靈活性差。
按需實(shí)例 :相當(dāng)于零售,即買(mǎi)即用。針對(duì)短期彈性需求,按小時(shí)計(jì)費(fèi),靈活精準(zhǔn),避免浪費(fèi),但價(jià)格比較高。
可被搶占實(shí)例 :又稱競(jìng)價(jià)實(shí)例,相當(dāng)于秒殺,手快有手慢無(wú)。作為云資源中的低成本戰(zhàn)斗機(jī),最低可達(dá)到按需實(shí)例價(jià)格的10%。隨時(shí)可能被搶占,需要有一定的技術(shù)實(shí)力才能使用。怎么合理地用不同云的不同計(jì)費(fèi)模式,確保成本最小化。這個(gè)工具包可以先了解一下。

B.手動(dòng)模式,浪費(fèi)是不可避免的首先,上面說(shuō)的競(jìng)價(jià)實(shí)例,手動(dòng)模式就使用不了。這損失可不小,具體可參考:云資源中的低成本戰(zhàn)斗機(jī)——競(jìng)價(jià)實(shí)例,AWS、阿里云等六家云廠商完全用戶使用指南
然后,手動(dòng)模式在云上開(kāi)關(guān)機(jī),經(jīng)常會(huì)發(fā)生機(jī)器沒(méi)有及時(shí)關(guān)閉導(dǎo)致的浪費(fèi),別小看這一點(diǎn),浪費(fèi)真的很?chē)?yán)重。24小時(shí)盯著?真不是人該干的事。
手動(dòng)模式已經(jīng)不能滿足企業(yè)優(yōu)化云支出的訴求,自動(dòng)模式可以快速適應(yīng)環(huán)境變化并不斷優(yōu)化使用過(guò)程。預(yù)告一下:我們有個(gè)優(yōu)秀的Auto-Scale功能,能基于多云環(huán)境,使集群規(guī)模根據(jù)用戶計(jì)算任務(wù)的算力需求,自動(dòng)增加或減少,以后開(kāi)單篇仔細(xì)講。
C.實(shí)際業(yè)務(wù)需求與使用資源不匹配導(dǎo)致的浪費(fèi)
比如可能申請(qǐng)了超出實(shí)際需求的內(nèi)存過(guò)大或CPU過(guò)多的資源(大和多,就意味著貴)。
D. 不同云廠商各自優(yōu)勢(shì)合理配置,減少浪費(fèi)
隱性成本
隱性成本:經(jīng)常被忽略,但支出也不小
本地的隱性成本
A.本地?cái)?shù)據(jù)中心建設(shè)與升級(jí)的一系列問(wèn)題:規(guī)劃、建筑、施工、培訓(xùn),是一個(gè)非常復(fù)雜的過(guò)程,每一個(gè)環(huán)節(jié)都不能出問(wèn)題。同時(shí),必須與內(nèi)部客戶合作以確保服務(wù)的連續(xù)性。
B.不同業(yè)務(wù)部門(mén)資源的搶奪
C.業(yè)務(wù)部門(mén)和IT部門(mén)的溝通成本
用云的隱性成本
A.云本身使用難度和門(mén)檻
目前主流云廠商所提供的產(chǎn)品線已經(jīng)相當(dāng)完善,有不少面向行業(yè)的解決方案。但產(chǎn)品和服務(wù)數(shù)量實(shí)在是過(guò)于龐大,入口也很多,最終導(dǎo)致操作層面的復(fù)雜性。
再考慮到不同云廠商的使用方式還不一樣,學(xué)習(xí)成本挺高的。
B. 云上超大規(guī)模集群的調(diào)度能力
這一條主要是考慮到云上近乎無(wú)限的資源池總量。超大規(guī)模集群調(diào)度的要求自然比普通集群高,就像做一桌滿漢全席和家常小宴自然要求不一樣。
超大規(guī)模集群,我們先問(wèn)買(mǎi)不買(mǎi)得起,再問(wèn)買(mǎi)不買(mǎi)得到,然后才是怎么管理,怎么調(diào)度,怎么考慮網(wǎng)絡(luò),怎么安排存儲(chǔ)。
參考:花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
C.如果考慮混合云場(chǎng)景IT自動(dòng)化管理,或者,多本地+多云場(chǎng)景IT自動(dòng)化管理,這些都是難點(diǎn)。

D.遷移成本??
傳統(tǒng)場(chǎng)景下,如果企業(yè)具備一定本地集群,上云確實(shí)需要一定工作量和遷移成本,這包括網(wǎng)絡(luò)打通、數(shù)據(jù)、作業(yè)、應(yīng)用遷移和測(cè)試等。規(guī)模越大,工作量就越大。
但對(duì)我們來(lái)說(shuō),遷移成本極低。我們是原生在云上的,在用戶的本地和云上建了一層,只需要考慮數(shù)據(jù)的流動(dòng),不需要考慮整體遷移,成本極低。
機(jī)會(huì)成本
機(jī)會(huì)成本:被放棄的選擇中的最高價(jià)值
資金機(jī)會(huì)成本
這個(gè)錢(qián)如果不用在本地建設(shè),花在別的地方能帶來(lái)什么?
A.云上用最新型機(jī)器帶來(lái)的效率提升,時(shí)間周期縮短
本地機(jī)器更新周期一般以年為單位,特殊需求可能申請(qǐng)?zhí)貏e審批,時(shí)間流程也短不了。像“財(cái)大氣粗”的云廠商一樣,最新型的機(jī)器那邊上市,這邊就上架。基本是不可能的。
最新型機(jī)器的好處,不用說(shuō)大家都懂。
B.云上資源池的超大規(guī)模
前面TOP500我們用的是CPU,再來(lái)看看比較難獲取的GPU。
2019年11月,SDSC圣地亞哥超級(jí)計(jì)算中心聯(lián)合威斯康星州冰立方粒子天體物理中心在AWS,Azure和Google云上一共調(diào)度了超過(guò)5萬(wàn)GPU完成一次仿真模擬計(jì)算試驗(yàn)。

這次計(jì)算,基于云的集群提供了全球排名第一超算中心峰值90%的性能。
詳情看2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長(zhǎng)率超21%
C.云上資源類(lèi)型的多樣性,如下圖:
費(fèi)模式備份-1-922x1024.png)
時(shí)間機(jī)會(huì)成本
時(shí)間機(jī)會(huì)成本:時(shí)間如果省下來(lái),能帶來(lái)什么?
我們說(shuō)過(guò),云有一個(gè)奇妙的特性:花同樣的錢(qián),你可以讓100臺(tái)機(jī)器跑1個(gè)小時(shí),也可以讓1臺(tái)機(jī)器跑100個(gè)小時(shí)。然后呢?
后半句我們上次沒(méi)講。節(jié)約的99個(gè)小時(shí),你可以做些什么?
哈佛大學(xué)醫(yī)學(xué)院利用云平臺(tái),調(diào)用16萬(wàn)個(gè)CPU對(duì)接10億分子僅耗時(shí)15個(gè)小時(shí),如果只有1萬(wàn)個(gè)CPU則需要兩周。具體參考15小時(shí)虛擬篩選10億分子,《Nature》+HMS驗(yàn)證云端新藥研發(fā)未來(lái)

新藥研發(fā)耗時(shí)長(zhǎng),成本高,一直是行業(yè)內(nèi)公認(rèn)的。
時(shí)間值多少錢(qián),各家藥企應(yīng)該心里有數(shù)。
換一個(gè)場(chǎng)景,半導(dǎo)體怎么樣?
芯片設(shè)計(jì)越來(lái)越復(fù)雜,周期和人數(shù)都在增加。過(guò)去1000人干一年,現(xiàn)在2000人干兩年。華為曾向媒體透露7nm的麒麟980研發(fā)費(fèi)用遠(yuǎn)超業(yè)界預(yù)估的5億美元。
而流片出了名的燒錢(qián),越先進(jìn)工藝流片的風(fēng)險(xiǎn)和費(fèi)用越高。臺(tái)積電第二代7nm EUV工藝的流片費(fèi)用已經(jīng)是創(chuàng)記錄的3000萬(wàn)美元、大概2億人民幣左右。而5nm全光罩流片費(fèi)用又上漲50%,大概要3億人民幣,而且還不包含IP授權(quán)費(fèi)。
在這里,時(shí)間又值多少錢(qián)?
EDA上云實(shí)證:HSPICE仿真任務(wù),如何用云實(shí)現(xiàn)周期提升42倍,從1個(gè)月縮短至17小時(shí)?

再算算本地資源采購(gòu)和建設(shè)周期所耗時(shí)間,資源不足時(shí),項(xiàng)目進(jìn)度被延遲的時(shí)間,是不是有點(diǎn)心痛。
用這些時(shí)間可以換取效率提升,周期縮短,業(yè)務(wù)擴(kuò)張,市場(chǎng)領(lǐng)先,技術(shù)能力提升。
潛在風(fēng)險(xiǎn)帶來(lái)的可能損失
云上的安全風(fēng)險(xiǎn)一直是大家最擔(dān)心問(wèn)題,沒(méi)有之一。
安全其實(shí)是一個(gè)相對(duì)概念,邊界會(huì)隨著時(shí)間推進(jìn)而發(fā)生變化。就像支付寶剛出現(xiàn)的時(shí)候,大家還是只敢把錢(qián)放在銀行一樣。
A.本地的風(fēng)險(xiǎn)和云上的風(fēng)險(xiǎn),互為半斤八兩。
引用一下之前的全球半導(dǎo)體行業(yè)上云格局一覽和十個(gè)上云實(shí)踐問(wèn)題的過(guò)來(lái)人解答,QST和AFRL針對(duì)這一問(wèn)題的回應(yīng):
QST:你不可能確保擁有最優(yōu)秀的IT和最好的安全人員。如果你在本地搭建你的整個(gè)設(shè)計(jì)系統(tǒng)和環(huán)境,服務(wù)器都在本地,我可以跟你保證你的安全措施肯定是很差的,很容易被外部破解。如果你的IP在云上開(kāi)發(fā)和存儲(chǔ),比如AWS,比如cadence,你知道AWS在云上遵循的安全準(zhǔn)則,肯定比在本地要安全多了。
AFRL:盡管我們是云懷疑論者。但大的云廠商在云安全上的控制是對(duì)外公開(kāi)的,每個(gè)人都知道你能得到什么,你能夠?qū)徲?jì)一切安全文件。而像跨區(qū)域的項(xiàng)目,不同的研究人員分散在不同的地方,還有外包商等等,你很難知道大家各自的IT情況怎么樣。而把大家拉到一起,能確保大家在同一個(gè)系統(tǒng)里,遵守了同一套準(zhǔn)則。而不是制定一套準(zhǔn)則,寄希望于他們能按這個(gè)標(biāo)準(zhǔn)實(shí)施。
B.企業(yè)的自建數(shù)據(jù)中心很難做跨大區(qū)域的異地備份,容災(zāi)能力有天然瓶頸
C.針對(duì)云上安全問(wèn)題,云安全責(zé)任共擔(dān)模式已在業(yè)界達(dá)成共識(shí),亞馬遜AWS、微軟Azure、阿里云,騰訊云等企業(yè)均采用了與用戶共擔(dān)風(fēng)險(xiǎn)的安全策略。
云服務(wù)提供商負(fù)責(zé)組建專(zhuān)門(mén)團(tuán)隊(duì)保護(hù)其服務(wù)的底層基礎(chǔ)設(shè)施不受威脅、漏洞、濫用和欺詐的侵害,用戶負(fù)責(zé)安全功能的恰當(dāng)配置,安裝更新和確保雇員不把敏感數(shù)據(jù)泄露給未授權(quán)方等。
潛在機(jī)會(huì)帶來(lái)的可能收益
和現(xiàn)在的互聯(lián)網(wǎng)行業(yè)極其相似,云天然具有規(guī)模效應(yīng)和網(wǎng)絡(luò)效應(yīng)。
A.規(guī)模效應(yīng)。
規(guī)模越大,適配的業(yè)務(wù)場(chǎng)景越多越深,能提供給用戶的福利越豐厚,產(chǎn)品成熟度也越高。
各大云廠商集結(jié)了業(yè)界頂尖的技術(shù)大牛,技術(shù)迭代速度非常快,在絕大多數(shù)情況下,先進(jìn)技術(shù)轉(zhuǎn)化為產(chǎn)品的效率,要遠(yuǎn)遠(yuǎn)高于我們自己研發(fā)。
另一方面,產(chǎn)品價(jià)格也會(huì)越來(lái)越便宜。
B.網(wǎng)絡(luò)效應(yīng)。
就像微信一樣,用的人越多,大家越能從合作中獲得更多的便利和好處。比如,機(jī)器學(xué)習(xí)算法相關(guān)的非敏感數(shù)據(jù)共享。
當(dāng)然,這需要一個(gè)過(guò)程。
企業(yè)現(xiàn)金流
現(xiàn)金流反應(yīng)了企業(yè)經(jīng)營(yíng)的健康程度。
本地自建初期需要一次性支出,中間因業(yè)務(wù)增長(zhǎng)需要再補(bǔ)充,然后是硬件整體升級(jí)。
云上初期投入小,按使用量付費(fèi),整體規(guī)模可控。
自建和用云的現(xiàn)金流趨勢(shì)圖如下:

最后,復(fù)習(xí)一下我們的結(jié)論:
1. 企業(yè)上云是否便宜取決于具體應(yīng)用場(chǎng)景;
2. 算賬并不是一場(chǎng)本地和云之間的battle,混合云是企業(yè)最常用的形態(tài);
3. 云的成本結(jié)構(gòu)高度依賴于自動(dòng)化和智能化的運(yùn)營(yíng)能力;
4. 效率的提升帶來(lái)TCO的降低才是計(jì)算云成本的正確思路。
相關(guān)閱讀:
>> 15小時(shí)虛擬篩選10億分子,《Nature》+HMS驗(yàn)證云端新藥研發(fā)未來(lái)
>> 【2020新版】六家云廠商價(jià)格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長(zhǎng)率超21%
>> 上榜啦~花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
速石科技致力于為 生命科學(xué)、 半導(dǎo)體、汽車(chē)/智能制造、高校科研、人工智能、互聯(lián)網(wǎng)金融 等領(lǐng)域的企業(yè)提供定制化的上云解決方案 。
