多个机构的调研结果显示,企业在上云过程中会不同程度地采用多种类型的资源池——混合云既具备公有云弹性伸缩的优点,又可满足用户对于不同类型业务和数据的运营需求,越来越多的企业IT架构正在逐步向多地、多点的混合云系统转变。
一、多地、多点、异构资源池网络监控难度陡增
随着云计算新技术的不断引入,传统的网络运维、监控方案越来越难以持续,云时代的网络监控诊断遇到了新的挑战。许多企业IT运营管理人员纷纷表示,现有的监控诊断方案难以覆盖日益增加的东西向流量;云化后的虚拟资源时刻发生变化、虚拟网络的层级不断叠加和转换、不同业务的网络服务拆分和交织在一起,网络的日常运维工作由此变得非常复杂;而当在业务出现问题时,由于缺少完整的证据链帮助企业快速定位和排障,导致部门间经常互相推诿。网络“黑盒”成为企业上云的一大障碍已经成为业界共识,造成这个问题的原因包括以下几点:
1. 流量管理有短板:传统的分光/镜像/采样等技术只能覆盖到物理网络,对越来越占据主导地位的虚拟网络流量缺乏精准和高效的采集手段,而后端现有的大部分分析工具首先缺乏必须的流量数据,并且也无法处理TB级别的流量数据。
2. 网络视图不清晰:云数据中心的特点是各种业务由同一套系统承载,网络资源是动态变化的,因此很难像传统网络那样用一张清晰的图来表示云网络,出现业务故障时“虚拟网元”往往成为了故障盲点,对于网络中的服务互访、关联关系、访问路径还缺少有效的监控手段,定位故障点成了新挑战。
3. 监控不随云扩展:企业采用混合云架构后,网络结构灵活多变,在多租户、大量业务、海量数据的背景下,需要建立包含物理、虚拟化、容器网络的统一监控平台,并为其他部门提供网络分流、数据服务。
二、用DeepFlow构建业务全链路流量知识图谱
许多行业有明确的等保要求,例如必须有能力对虚拟网络的拓扑和流量进行采集和展现,采集方式也必须确保安全可靠。企业想彻底解决虚拟网络“黑盒”问题,则需要获取完整的网络流量。下面以DeepFlow全景图功能为例,介绍混合云环境下的网络流量采集及全链路监控。
全景图是DeepFlow重要功能之一,v5.6版本提供十多个维度(包括IP、VPC、子网、区域、可用区、宿主机、虚拟机、容器节点、容器POD、业务、资源组等)的资源流量搜索和知识图谱展现,以及云网全景视图下的监控诊断解决方案。帮助用户将网络信息、资源信息、服务信息与业务信息有机关联,统一采集并分发任意工作负载(容器/虚拟机)之间的流量,实现对业务网络的全面性能监控。流量搜索从十余个维度的资源视角展示网络性能监控数据。全景图展示的视角(页面)包括:
流统计:以IP五元组聚合流,以流属性为基础统计吞吐、负载、时延、性能、异常及流量属性数据,支持以趋势、排名、分布、拓扑的方式进行可视化。
包统计:以IP二元组聚合,对包的播送类型、TCP标志位、TTL、包长区间等属性进行吞吐量统计,支持以趋势、排名、分布、拓扑的方式进行可视化。
广域网:从地理位置的视角展示资源与Internet之间的流量分布,支持以中国省份维度进行分组统计,支持的指标量与流统计相同,支持以趋势、排名、分布的方式进行可视化。
通过点击拓扑中的节点、路径,以及分布图中的分组,用户可在上述页面之间进行切换,从不同的视角对同样的数据进行展现。另外,页面还可进一步跳转到流量曲线二级页面,以折线图的视角,展现现拓扑中的节点、路径或分布图中分组的统计数据在不同时间的结果,并与虚拟机、容器POD的启停、创建(同步)、删除、迁移、IP变更事件进行关联展示。进一步的,可以跳转到流日志三级页面,查看对应的原始流日志详细信息。
DeepFlow全景图功能下目前有流量搜索及网络拓扑两个子功能,流量搜索聚焦于从不同的维度对虚拟网络中的流量指标数据(500多个监控指标)进行灵活检索,形成丰富多样的子视图(拓扑类、比较类、分布类、趋势类等),对流量数据进行可视化展现。且所有可视化图表均可加入自定义视图中进行进一步的组合、设置告警生成策略、设置报表生成策略。
网络拓扑功能聚焦于从逻辑、虚拟、物理的视角展现网络的配置信息和状态指标数据。完整描述各虚拟资源及虚拟网元之间的访问关系以及流量状态,帮助管理者全面掌握虚拟网络整体情况,有效应对虚拟网络内部组件关系复杂、虚拟机变动频繁等现象。
三、全景视图下的云网全链路监控诊断
采集数据、可视化呈现只是精细化管理的第一步,接下来还要将网络信息、资源信息、服务信息、及业务信息,关联对应起来,真正用于发现问题、解决问题。例如,用户通过DeepFlow全景图可以确定突发的网络故障问题在哪一侧,以及业务网络端到端逐跳性能问题诊断等。
通过精细搜索,过滤指定网流:源、目的、协议、服务端口;通过端到端指标量对比,定位问题在客户端/服务端;结合资源知识图谱,定位流量的资源信息。
通过精细搜索,过滤指定网流:源、目的、协议、服务端口;通过物理链路逐跳查看,展示网络性能指标的逐跳变化,定位丢包和时延位置;通过广域网追踪,过滤网流,定位问题地域。
四、总结
DeepFlow全景图帮助管理者将网元状态、网络流量与资源(业务)有机关联,使云中业务网络不再是运维“黑洞”。通过全网流量采集,时序数据库的分布式存储,再绘制包含多个维度的网络知识图谱,最终通过对关键指标量的监控,实现对业务网络全链路的监控和性能诊断。