摩根大通云遷移啟示錄：三大目標、五大策略助力高效運維與性能提升

發布時間：2026-01-08 00:07 來源：快訊作者：周琳

在當今數字化時代，金融機構的云遷移與分布式系統擴展面臨著諸多挑戰與機遇。摩根大通旗下的Chase.com在云遷移過程中積累了豐富的經驗，其圍繞三大核心目標展開的策略，為大規模系統管理提供了極具價值的參考。

在規劃系統擴展時，人們往往只能預估兩到三倍的負載增長。然而，互聯網環境下，入站流量的規模、時間和使用模式難以控制。無論是合法業務增長帶來的流量，還是惡意攻擊者的行為，都可能引發巨大的負載激增。安全控制措施雖能阻止惡意流量，但市場波動引發的真實客戶需求激增卻需要系統具備應對能力。此時，多個組件可能同時故障，網絡設備、負載均衡器、應用程序和數據庫連接都可能中斷。

Chase.com的云遷移聚焦于三大核心目標：以高成本效益和高效的方式實現彈性擴展、確保高韌性以及提供卓越性能。對于金融機構而言，高韌性尤為重要，而卓越性能則能防止用戶因系統遲緩而轉向其他服務。

在實現高效擴展方面，分析客戶使用模式和行為是關鍵。組織需在保持彈性擴展能力的同時，發展預測能力。整體容量管理也不容忽視，單純增加服務器并非成功之道，還需權衡成本因素。流量模式是高效擴展的基礎，平均流量是日常處理的基準，可預測模式如工資入賬等周期性事件會促使客戶查詢賬戶余額，全年還有季節性高峰。而突發事件如DDoS攻擊會帶來不同挑戰，其流量可能遠超正常負載。基于已知模式進行容量規劃可預防運維問題，但彈性擴展存在局限性，應用程序啟動和建立連接需要時間，大量請求在此期間涌入會導致資源爭用。因此，預留計算容量十分必要，它能保證資源在需要時可用，尤其在多租戶共享資源池出現爭用時，還能帶來成本節約。同時，成本管理需持續關注，定期應用FinOps流程。

擴展不應局限于增加服務器。當發生擴展時，要判斷應用程序是否因真實客戶需求而擴展，還是因上游服務排隊導致響應變慢。線程等待響應會使CPU和內存壓力上升，觸發彈性擴展。這要求在設計中考慮容錯，并將斷路器整合到擴展策略中。當上游服務變慢或失敗時，斷路器可防止應用無限期等待響應，強制設置超時限制，避免線程耗盡、減少不必要資源消耗，防止錯誤觸發擴展。

韌性要求為系統故障做好準備，早期檢測和隨時執行故障轉移程序至關重要。但為所有組件實現100%的可用性既不現實也無必要。基礎設施可根據關鍵性分為四個層級。關鍵類組件如DNS，必須盡可能接近100%可用；可管理層組件在故障時可通過故障轉移維持運行，目標為“四個九”的可用性；可容忍層組件具備內置韌性，如緩存長期數據的令牌服務；可接受層組件允許有限數據丟失，如某些日志系統，韌性目標由影響嚴重程度決定。

性能會顯著影響用戶體驗和基礎設施成本。通過部署接入點（PoP）可提升用戶體驗，尤其對網站延遲敏感的移動設備。速度能建立用戶信任，搜索引擎已將速度納入排名算法。在網絡連接受限場景下，移動端性能尤為關鍵。從基礎設施角度看，客戶完成任務時間越少，運營成本越低。Chase.com通過實施全面性能策略，系統延遲降低了71%，這些策略可適配其他業務場景。

其架構方法圍繞五個重點領域展開。多區域部署通過隔離和分段實現功能化解耦，有助于管理區域、可用區和網絡故障，限制故障爆炸半徑。實現多區域架構需解決DNS管理問題，協調不同區域獨立負載均衡器，確定區域間和區域內流量調度策略。可用區故障時，若應用未將依賴系統狀態納入健康檢查，負載均衡器會繼續路由流量導致應用失敗，解決方案包括將依賴系統健康狀態反饋給負載均衡器或采用基于代理的重路由機制。區域性故障時，依賴統一的區域健康脈搏檢查，根據應用分段情況決定是否故障轉移，但故障轉移可能引發“驚群效應”。跨區域的數據復制與確保數據一致性是主要關注點，客戶分片是一種可行方案。狀態管理需為活躍會話維護會話親和性并支持故障轉移。

高性能對用戶體驗至關重要，邊緣計算是實現性能目標的主要手段。可將靜態內容卸載至靠近客戶的入網點，源服務器處理動態操作和關鍵服務。流量整形可對流量分類，關鍵服務資源必須始終保持運行。地理分布影響性能，在PoP緩存內容可提升性能并帶來安全收益。“最后一公里連接”問題值得關注，邊緣計算改變了通信模式，移動應用也有優化空間。

自動化是關鍵戰略元素，在流水線各階段實施全面自動化可帶來巨大收益，涵蓋部署、基礎設施供應、環境配置、健康檢查和流量管理。創建“帶有傾向性的”架構模板可幫助團隊構建自動繼承架構標準的應用，應用通過基于清單定義進行自動化部署。基礎設施“重鋪”是高效實踐，定期自動重建環境可消除配置漂移，增強安全性，更新補丁。自動化故障轉移需考慮活躍會話，防止故障轉移循環，根據場景和延遲容忍度決定處理方式。

可觀測性要求對觀測到的事件進行自動化響應。云環境產生大量事件，自動化通過無服務器函數與可觀測性集成，根據預設條件切換執行區域。數據庫問題、維護活動等可觸發相應函數。健康檢查需在多個層級進行，應用內健康檢查向上傳播至各層級，通過簡單布爾指標實現自動化健康評估，支持快速決策。在不同場景中，根據告警信息決定流量重定向或服務降級等決策。

安全需采用零信任模型的分層實現，每一層獨立運作，假定其他層可能失效。客戶端設備、邊界安全、內部網絡、容器安全、應用安全和數據安全各層都要采取相應措施，各層之間互相強化。

文化轉型是成功遷移的基礎，云運維與企業自建系統差異大，需持續適應。 “誰構建、誰擁有、誰部署”的所有權模型將責任賦予應用團隊，自動化可確保一致性。公司開發的TrueCD CI/CD方法論類似航空業飛行前安全檢查。從企業自建環境向云遷移會影響應用架構，抽象層可減少影響，Dapr是支持多云架構的開源框架。大型應用遷移需逐步進行，先在內部用戶群體中驗證系統，拆分系統為離散應用集，逐步遷移客戶群體。

這些策略的實施帶來了顯著成果，成本顯著降低，性能指標大幅提升，平臺在對比分析中名列前茅。在實施策略時，需權衡成本與性能，不損害其他需求。多區域架構中要評估緩存復制策略，降低運維復雜性，減少人工干預，自動化是關鍵。控制故障爆炸半徑至關重要，建立面向行動的可觀測性并與自動化操作緊密關聯。所有決策應以客戶為中心，確保關鍵組件在流量激增時保持運行，核心系統維持響應能力，客戶獲得即時響應。

更多>同類內容