LOGO OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 开发文档 其他文档  
 
网站管理员

【经典案例】无数从业者的噩梦,没用多少带宽却卡的要死!却被月薪8K的小伙只搞定了!

admin
2024年12月20日 8:33 本文热度 194

【背景介绍】

近期一家专做中小企业IT网络外包项目的集成商客户抱怨:“好多客户想要他的命!”我真的很吃惊忙问为啥,原来是做了好几家企业的网络经常出现整网卡顿的情况,表现为网页没法打开、微信消息转圈圈、视频加载缓慢等等问题,但有时候又正常,莫名其妙的根本搞不定!

问题一直找不到,也找了运营商检查了线路一点问题没有,还请了网络专家专门排查,也没法摸到头脑,一边被企业追S、另一边又收不回尾款,快疯了要。走投无路了,为此专门找厂家求助了!于是上任刚满一年的技术支持小明就被派去解决此问题了~

眼下集成商的客户是一家200人规模的地产公司急需解决此问题,整网拓扑大概如下:

  • 出口锐捷企业级路由器,千兆出口带宽,电信拨号上网,无IPv6

  • 核心、汇聚、接入交换均使用H3C全千兆;

  • 核心交换用的盒式堆叠交换机,汇聚与核心MSTP;

  • 不同部门属于不同VLAN,网关均在核心堆叠交换机上;

  • H3C AC集中管理AP以部署无线网络。

【问题剖析】

该公司反馈有线/无线上网均存在卡顿,下班期间还好,早上9:00开始上班多人一用网络就开始卡,主要表现为:网页没法打开、微信消息转圈圈、视频加载缓慢等等,并认为是我们设备的问题要求解决。前面案例分析1期讲过了(链接>>【真实案例】工厂无线太卡?好家伙,网络做成这样真的是臭水平!),作为网络工程师,我们要对问题反馈要有一定的敏感性,所谓的“网页没法打开、微信消息转圈圈、视频加载缓慢等等”这些表现的意思是什么呢?它意味着:

  • 整网带宽不足?

  • 访问internet存在延时、丢包?

  • 核心和出口设备工作异常?

  • 域名解析异常?

  • TCP连接建立失败?

。。。

鉴于网络问题的复杂性,我就不一一列举了,接下来由浅入深,我们一起来分析分析!

【基础分析】

这天该公司员工又在叫无法正常上网了非常卡顿,整网的问题我们只需管有线网络故障即可,并且是“整网异常”,我们的目的很明确抓主干路问题。于是小明驻点现场开始了长达3天的诊断:

1、确认带宽使用率

首先整网卡顿问题需要检查下是否有大的设备占用带宽和出口流量异常:

没有异常,占用率非常低,实时下行流量才82Mbps。还没到带宽不足那一步,况且200人的网络千兆宽带均分5Mbps,基本够用了。先排除带宽不足的问题。

2、基础网络诊断

检查外网IP连通性和域名解析(直接ping域名),找台PC接入不同的VLAN进行测试:

各个VLAN下分别测试多个域名解析和外网IP连通性均正常,延时也没太大问题。和DNS服务器关系不大,基本能正常解析,并且也没有明显的丢包和时延。

3、检测是否有IP冲突

一般来看是否存在和核心交换机网关IP冲突即可,其它终端个例冲突无关大雅。在H3C核心上的系统视图下命令开启:

[H3C]arp ip-conflict log prompt #命令用来开启源IP地址冲突提示功能。

【命令说明】

设备接收到其它设备发送的ARP报文后,如果发现报文中的源IP地址和自己的IP地址相同,该设备会根据当前源IP地址冲突提示功能的状态,进行如下处理:

  • 如果源IP地址冲突提示功能处于关闭状态时,设备发送一个免费ARP报文确认是否冲突,如果收到对应的ARP应答后才提示存在IP地址冲突。

  • 如果源IP地址冲突提示功能处于开启状态时,设备立刻提示存在IP地址冲突。

 现场没有相关截图,本地就实验简单演示探测机制:

如果交换机接口收到ARP报文中Sender IP address字段与自己相同的即说明自己接口IP与某设备冲突就会有“消息”提示。最终现场并没有检测到核心交换机网关冲突,故排除网络中占用网关IP冲突的原因
4、检测主干设备系统参数

即检查核心交换机和出口路由器的CPU和内存(通过web页面查即可),结果基本在20%和10%以下,不多讲了。核心和出口设备工作均正常正常,排除设备系统运行异常的原因。


目前来看设备系统状态、出口带宽不足、DNS解析似乎都没有太大问题。OK,我们进一步深入分析。

【深入分析】

1、检测内网主干路性能瓶颈

为了进一步验证内网主干链路质量,这边使用PC通过IPerf搭建吞吐量测试环境,分别在接入层部署Client PC、在出口路由部署Server PC,由此确认各个接入VLAN到出口路由的吞吐量性能。方法不细说了,详见:

链接>>简单实用的测速工具“iperf3”在Window系统下的安装方法和使用教程

部署测试如下:

测试结果:

  • 上行方向(Client—>Server)

  • 下行方向(Server—>Client)

由于内网均是全千兆传输,在各个VLAN的接入层到出口路由的主干路径,吞吐量测试上下行吞吐量基本在900Mbps+左右。进一步明确,确认内网链路性能及转发没有任何问题。
2、分析路由器出口流量

基本排查已经做完了,并且内网链路质量无问题。下一步就对路由器WAN口做监控,进行流量分析:

对于网页访问、应用上网等常见的internet流量监控,我们主要看2个常见的指标:

  • TCP会话数建立失败率

  • DNS请求和响应的


于是长时间抓了个的路由器WAN口报文后,我们拿回来分析,如下:

【分析TCP握手】

通过WAN口报文分析,发现短时间内有较多的TCP会话均没有得到响应而重传,如下图:

SYN不断重传,意味没有得到前端响应的SYN ACK,不断的有连接建立失败。前端疑似存在会话数限制!

【分析DNS流量】

我们进一步使用wireshark做下对DNS的过滤,并做I/O统计:
上图红色曲线是路由器WAN口发出去请求DNS报文的速率(单位时间1秒内发出的DNS请求),绿色的曲线表示internet响应DNS的速率。我们可以看到,在多个时间段内DNS的响应是跟不上DNS请求的,存在DNS阈值限制!

3、查看路由器会话数

出口路由web上打开实时流量统计再看一下会话数:
基本实锤宽带有连接数限制。

【解决方案】

诊断原因为:运营商线路限制了会话数和DNS阈值。
于是让集成商客户直接找运营商处理,想不到对方态度强硬,认为我们口说无凭并且后台查看无限制无此问题处理不了,锅又甩回来了。无奈之下,只能根据拓扑测试、数据分析、报文统计整理给对方提供专业的报告,运营商这会儿甩不掉了才进一步处理,发现企业用的居然是家用1Gbps宽带业务!好家伙,这一开始也不说,钱可不是这么省的!
最后换成企业宽带(add money),解除限制后完美解决问题,200人企业上网再无反馈,进一步监控了DNS出口交互:
问题圆满解决,不得不说小明同志是真的diao

嗯,涨薪暂时不可能的哈,好好干明年给你加工资!

小云君结语:

  • 家用宽带是有限制的,虽然带宽达1Gbps,但会有会话数和DNS限制,终端带机量也就几十台,企业宽带千万不要家用业务;
  • 一般情况下要提供专业报告运营商才会处理此问题,但如果实在没法做专业诊断但又怀疑此限制该怎么办呢?一直打投诉电话,一定会有效果~

阅读原文:https://mp.weixin.qq.com/s?__biz=Mzg2MDg4NTg5OA==&mid=2247494608&idx=1&sn=5fc31c7e3a00564ed97ccadd3cc60c9b&chksm=ce1d2d35f96aa423a8a3bad46a2dc7973b46b36c304496d210f6f0a6d8ee906e3d7374dcc772&scene=21#wechat_redirect


该文章在 2024/12/20 10:12:12 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2024 ClickSun All Rights Reserved