自10月16日谷歌YouTube陷入全球性宕機之后,谷歌再次發(fā)生重大宕機事故。
11月9日,Google下的Kubernetes服務(GKE),從清晨4點30分開始,宕機將近19小時,直至當日深夜11點才完全完成修復。但是在修復過程中,卻因為GCP的不穩(wěn)定性,而使Google被大量網友詬病。
谷歌官網發(fā)布故障聲明
根據Google所發(fā)布的公告,GKE服務從11月9日清晨4點30分起,Kubernetes節(jié)點池構建功能出現異常,管理員無法通過Cloud Console UI創(chuàng)建新節(jié)點,Google隨即開始進行調查故障原因,并開始處理。
到11月9日清晨5點57分,Google表示,受到影響的企業(yè)用戶,可以先改為使用GCP內置的gcloud command,創(chuàng)建新Kubernetes節(jié)點。
一篇帖子引發(fā)的疑問:宕機持續(xù)了三天?
但11月11日,在知名開發(fā)者Hacker News網站上,網友發(fā)布《Google Kubernetes Engine連續(xù)第三天服務中斷》表示,他目前正在評估兩個獨立的Google GCP項目,有幾點疑問和想法:
1)從11月9日到現在,整整三天,用戶是否能夠啟動節(jié)點池是有疑問的(根據官方博客聲明),用戶是否能夠啟動簡單的計算實例(根據HN上的聲明)也是有疑問的。
2)GKE宕機涉及全球范圍,影響了谷歌的所有地區(qū)。因此,考慮到上面的第1項,用戶是否可以在GCP中的任何地方啟動節(jié)點池甚至簡單節(jié)點都是有問題/不可預測的。
3)關于GKE宕機的信息只能在Google的博客上找到幾個或兩個指代不明的句子,Google沒有提供對受影響地區(qū)和服務范圍的解釋或概述。
4)一些用戶報告表明Google的博客沒有提到其他GCP服務是否遇到問題。
5)也有一些用戶報告稱,自提交支持請求以來,即使在40多個小時的時間內,他們也沒有收到GCP支持的響應。
6)谷歌表示,他們會在下一個工作日到來時提供一些信息,大約在問題開始后4天。
此網友表明,為確保自己了解到的這種情況是否是真相,希望有相關人士能夠進行解答。
相關人士針對這些疑問,使用Google故障聲明進行解答:
首先,聲明中“我們正在調查通過云控制臺用戶界面創(chuàng)建Google Kubernetes Engine節(jié)點池的問題,受影響的客戶可以使用gcloud命令來創(chuàng)建新的節(jié)點池。”說明這是一個UI控制臺問題,它似乎仍然可以管理。
其次,通過云控制臺用戶界面創(chuàng)建Google Kubernetes引擎節(jié)點池的問題已于2018-11-09 14:30美國/太平洋地區(qū)解決。只是Google忘了將其標記為如此,因此才會引起誤會,讓大家認為此次宕機事件沒有及時進行解決。
實際上,經過10個小時的維修,在11月9日下午2點30分時,Cloud Console UI建立節(jié)點池功能已經恢復正常。
客正在拋棄谷歌
雖然有了這個“Google忘了將其標記”的答案,但是仍有網友表示:整個周末都沒能通過UI控制臺或gcloud在GKE集群中創(chuàng)建節(jié)點,即使是現在也無法啟動任何節(jié)點。
有網友表示:當一切正常時,GCP是最好的,穩(wěn)定、快速、簡單、可靠。但當異常出現時,GCP是最糟糕的,且通信速度緩慢。因此,在升級問題或嘗試尋找解決方案之前,Google需要做太多工作。
也有網友表示,谷歌還沒有吸取這一教訓,他們寧愿投入大量精力來構建用戶無需支持即可使用的服務,一旦問題得到解決,這種方法就能很好地運作,但在真正的問題解決之前這種方法就很糟糕。谷歌的廣告、文檔、GMail等成熟產品令人驚嘆,但沒有足夠成熟的問責制系統。
有相關人士表示,可能是自11月9日以來,谷歌一直受到全球服務中斷的影響,影響了Kubernetes節(jié)點池的創(chuàng)建和可能的其他服務。
但是仍有網友表示已不再信任Google的GCP:我最近從GCP中刪除了我的托管。他們的定價令人困惑和難以置信,客戶服務更是一個笑話。由于他們關閉自己的應用程序的方式,我不相信Google的長期一致性,因為我懷疑他們是否能在他們的上做到這一點。