1957名用戶報障!騰訊云公布4月8日故障復盤:云API異常持續近87分鐘
快科技4月14日消息,4月8日,有大量網友反饋,稱騰訊云出現服務故障,出現騰訊云控制臺登錄不上等情況。
今日,騰訊云發布4月8日故障復盤及情況說明。
經過故障定位發現,客戶登錄不上控制臺正是由云API異常所導致,故障發生后,依賴云API提供產品能力的部分公有云服務。
也因為云API的異常出現了無法使用的情況,比如云函數、文字識別、微服務平臺、音頻內容安全、驗證碼等。
官方表示,此次故障一共持續了近87分鐘,期間共有1957個客戶報障。
故障的原因是云API服務新版本向前兼容性考慮不夠和配置數據灰度機制不足的問題。
本次API升級過程中,由于新版本的接口協議發生了變化,在后臺發布新版本之后對于舊版本前端傳來的數據處理邏輯異常,導致生成了一條錯誤的配置數據,由于灰度機制不足導致異常數據快速擴散到了全網地域,造成整體API使用異常。
騰訊云稱,發生故障后,按照標準回滾方案將服務后臺和配置數據同時回滾到舊版本,并重啟API后臺服務,但此時因為承載API服務的容器平臺也依賴API服務才能提供調度能力,即發生了循環依賴,導致服務無法自動拉起。
通過運維手工啟動方式才使API服務重啟,完成整個故障恢復。
問題復盤
整個處理過程如下:
1.15:23,監測到故障,立即執行服務的恢復,同時進行原因的排查;
2.15:47,發現通過回滾版本沒能完全恢復服務,進一步定位問題;
3.15:57,定位出故障根因是配置數據出現錯誤,緊急設計數據修復方案;4.16:02,對全地域進行數據修復工作,API服務逐地域恢復中;
5.16:05,觀測到除上海外的地域API服務均已恢復,進一步定位上海地域的恢復問題;
6.16:25,定位到上海的技術組件存在API循環依賴問題,決定通過流量調度至其他地域來恢復;
7.16:45,觀測到上海地域恢復了,此時API和依賴API的PaaS服務徹底恢復,但控制臺流量劇增,按九倍容量進行了擴容;
8.16:50,請求量逐漸恢復到正常水平,業務穩定運行,控制臺服務全部恢復;9.17:45,持續觀察一小時,未發現問題,按預案處理過程完畢。
改進措施
綜合盤點這次故障,最根本的原因是在版本變更過程中,沒有有效執行沙箱驗證和預案演練,暴露了在變更管理上的不足,接下來將從以下幾個方面快速進行改進和完善,以減少故障的影響范圍和影響時長。
第一,提升系統韌性
1、定期執行預定的變更策略模擬演練,確保在真實故障發生時,能夠迅速切換到恢復模式,最小化服務中斷時間。
2、優化服務部署架構,通過分層架構、代碼審查和監控等手段, 避免API服務中潛在的循環依賴問題。
3、提供API服務逃生通道,當故障發生時,可供調用方快速切換。
第二,強化變更管理與保護措施
1、完善自動化測試用例庫,在系統變更前通過沙箱環境對變更內容進行嚴格驗證。
2、實施灰度發布策略,逐步推廣新功能或配置更改,按集群、可用區、地域逐步生效,以便在發現問題時能夠迅速回滾。
3、引入異常自動熔斷機制,當檢測到系統異常時,能夠立即中斷變更過程。
第三,增強故障響應與溝通能力
1、對故障處理流程進行全面升級,確保實時更新故障處理進度和預計恢復時間點,提升故障報告發布效率。
2、在對外發布的故障通知中,清晰闡述受影響的業務范圍、故障根因及預計修復時長,保持透明度。
3、優化騰訊云健康狀態看板(StatusPage)的信息展示邏輯,解除對云API等云服務的依賴,通過引入緩存和容災機制,確保即使在云服務出現故障時,能準確、及時地傳遞故障信息。
對于騰訊云本次故障復盤及情況說明,有網友表示:“能對外公布過程,對用戶透明,也是種進步”“有故障不可怕,關鍵是要能在故障中去真正總結、改進、沉淀,盡量做好下一次故障的規避和優化,這才是寶貴的經驗和收獲。”
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com



