想要“自证清白”,口说无凭,一定要借助存储性能监控软件或性能数据分析结果。具体的说,就是通过监控软件设置性能相关的事件和报警触发条件:
- 硬件角度来讲,就是各个部件的利用率阈值,甚至关键部件的健康状态,因为故障也经常是造成性能下降的原因,比如控制器故障或者链路相关部件故障。零部件故障,则存储资源下降,那么下降的程度会不会直接影响性能,则要视情况而定。我们泛泛的把一个存储的资源比做 100% ,如果当前业务只使用到其中的 30% ,那么就算故障设备影响了整体设备的 50% ,也不会对业务有性能方面的影响,而如果当前业务已经使用了 90% ,那轻微的设备故障就极有可能影响性能。
- 软件角度来讲,就是 IO 相关的指标监控,比如 IOPS ,响应时间,吞吐量等。如果有任何超标的报警产生,不一定是唯一造成性能问题的原因,但一定与之相关的环节脱离不了干系。当然有报警并不一定是某些设备有问题,也许只是单纯的业务压力已经超出了设备可以提供的处理极限。也就是俗话说的 “ 小马拉大车 ” 。
任何异常报警的产生,都可能是造成性能问题的根本原因。反过来说,没有报警,则是“自证清白”的第一步。如未出现任何报警或异常状态,则进一步通过分析问题时间段的存储性能日志,以及结合端到端的 IO 处理过程中涉及到的所有环节的追踪分析,比如主机、应用、传输链路等环节对应的日志,多方协查来定位造成性能问题的根本原因。
另外,华为存储本身有监控模块,可以对控制器整体性能、单个 LUN 或文件系统的性能、端口性能、后端磁盘性能等进行监控,且有在线工具可以实时查看当前性能、离线工具可以查看历史性能,通过对比主机出现性能问题的时间点,分析、查看存储侧对应时间点的性能表现,也可以来 “ 自证清白 ”