本文以云杉網絡DeepFlow®近幾年在客戶落地的方案實踐為主線,聚焦混合云、容器環境下的需求演進,介紹在新環境下云監控的方案價值以及發展思考。
在云原生環境下企業客戶主要面臨的挑戰主要體現在網絡分層以及彈性業務充分體現了監控保障的難度,由此可以將挑戰歸納為三點:對象數量大、波動性強以及關系復雜。舉兩個例子,應用在SOA、MSA架構下,更多地以Ingress、Service、POD在呈現,網絡IP動態變化。如果仍然單獨以傳統的IP視角進行可視化以及運維保障,明顯是不夠的,存在短板。迫切需要將網絡視角與平臺、事件、應用關聯起來。另一個典型的例子是“端到端分析”,在物理網絡段,可以通過有限的分光鏡像點來描述、展示路徑,但中斷于池內或云內網絡段。云內網絡處于“黑盒”狀態,云內又包含有服務間交互訪問、東西向網關、負載均衡、地址轉化等各個環節,缺乏有效的保障手段,這對一個生產環境來說是不能接受的。
那么,云杉DeepFlow®賦予自身的使命是什么呢?就是要“為客戶補齊云架構中保障側的那塊拼圖”。去打開“黑盒”;去將采集與分析解耦;去繪制一張全網的網絡知識圖譜;去提升分布式業務系統的可觀測性,實現一個與云等量齊觀的完全可擴展的監控架構。
簡單回顧一下DeepFlow®的實踐發展。
DeepFlow®流量采集分發:解決東西向流量采集難題以及流量引出
2016年起我們就開始了客戶落地。當時,客戶的訴求很直接,就是要看到虛擬網絡中的流量,其中存在的挑戰包括避免對生產環境的侵擾、保障性能的同時限制采集系統對資源的使用、能實現策略跟隨以及支持隧道分發。客戶的環境與現在還是有些區別,資源池類型主要是ESXi、XEN以及KVM,理念上也是關注全包。DeepFlow®方案的重點就是采集與分發,為客戶解決虛擬機間的東西向流量采集難題以及流量引出。需要做到避免侵擾數據面,在有限的資源使用下保障性能,在虛擬機發生遷移后,確保采集分發策略的統一及跟隨。通過隧道封裝,保時保序地將數據包分發至各類分析工具處。在這個階段,DeepFlow®實現了面向各類資源池的網絡流量“采集處理抽象層”,統一提供采集、多維過濾、去重、壓縮、截短等預處理功能。抽象層中的各類型采集器本身也是一套分布式系統,為后期面向大規模多類型的云環境監控中高性能數據處理提供基礎保障。
DeepFlow云網分析:解決分布在各地的資源池網絡監控缺失
在中期階段,客戶業務逐步上云,云建設的規模更大,同時開始關注容器網絡以及業務保障。這時客戶更多地關注多區域多資源池以及underlay和overlay的統一管理、對于多云異構環境有統一網絡全景圖的需求、對虛擬網絡的故障診斷需求也浮出水面。客戶理念上也不再認為云環境的網絡保障可單純地通過存儲、分析全包來解決。此時面臨的多點多地管理,Overlay網絡中的Trouble shooting等問題也很突出。DeepFlow®方案著重面向客戶大規模混合云網絡的整體監控,包括多數據中心、多分支機構、私有云和公有云的整體網絡全景圖,解決專線鏈路負載、公有云網絡性能、私有云故障排查等系列問題。在此階段,DeepFlow®控制器集群不僅具備了管理10萬采集點規模的能力,而且廣泛地與云平臺、CMDB對接,使網絡IP、流量與VPC、虛擬機、POD、服務、平臺事件等關聯,繪制一整張網絡知識圖譜。
DeepFlow分布式業務的可觀測性:解決云原生應用保障及容器平臺的網絡監控
在目前階段,云杉看到客戶處容器環境發展迅猛,云建設思路更清晰,也更有規劃。同時也在體系化地考慮監控保障側的建設,將應用、網絡及基礎設施的Metric、Log、Tracing統一地加以規劃整合。此時客戶需求更多地面向業務側、更注重隨云擴展的架構實現、以及在此基礎上提供高性能數據服務的能力。比較典型的一個方案就是支撐微服務平臺的監控中心建設,通過DeepFlow®各功能展現服務依賴關系、訪問指標、網絡性能等,基于網絡流日志獲取業務Trace ID、容器Labels等鍵值,關聯Log平臺和Tracing框架,完善分布式應用系統的可觀測性。
容器、虛擬機、宿主機的結合,也是常見的全棧場景,產品通過“全景圖”不同維度的查詢展示來描述各層面的關系。圖中的“點”可以是數據中心、可用區,可以是虛擬機、容器POD,可以是VPC、網段、IP,也可以是Service、資源組等。“點”與“點”之間的連線可以設置為流量、調用關系的吞吐、延時、TCP連接狀態等指標。當看到兩個容器POD的連接延時超過閾值時,客戶面臨的是一個復雜的全棧環境,涉及到POD、Bridge、vSwitch,再到東西向的Gateway,中間已進行過多次地址轉換。DeepFlow®清晰地將每一步的指標呈現出來,快速高效地定位問題點。這就是云杉為客戶提供的全棧跟蹤能力。
DeepFlow全棧混合云監控
經過這些年的積累演進,云杉DeepFlow®產品實現了隨云擴展的網絡監控架構。面向物理網絡、虛擬化以及容器等多類型的監控對象,通過“采集處理抽象層”,首先確保客戶平滑地從物理環境向虛擬環境的監控擴展;第二,得益于采集器的優勢,針對資源池類型、品牌、規模以及后續發展都可以實現橫向擴展,統一具備流量采集及處理能力;第三,采集與分析解耦,通過分發功能實現“一次采集、多處分析”擴展分析工具的能力,涵蓋客戶多種專業分析場景;第四,DeepFlow®高性能分布式時序數據節點橫向擴展保障Metric、流日志以及PCAP等數據的存儲與處理;最后,通過API、隊列等方式為安全、業務等其他數據平臺提供網絡數據服務。
對于以上方案的實踐,涉及到各個行業的領先客戶群,DeepFlow®的演進離不開客戶的信任、幫助以及支持。在實踐過程中,云杉網絡也深入地與云、容器平臺進行合作與探討,真切感受到技術人對于云原生的熱愛與追求,并在此基礎上團隊之間的惺惺相惜。云杉將不斷進步、保持先進,讓更多的客戶在云架構保障側安心。
責任編輯: 李穎