查看其它 4 个回答强哥之神的回答

强哥之神架构师&技术经理上汽集团云计算中心

我们是采用Prometheus来监控资源，这个也是业界用的较多的，包括CPU利用率、内存利用率、磁盘IO、网络带宽等，还可以自定义暴露一些指标，比如监控作业调度系统（如Slurm、PBS等）的工作队列情况、作业运行状态以及资源分配情况，了解各个作业的运行时长、优先级、资源需求等信息。
另外，也可以收集历史数据，对资源利用率进行统计与分析，了解不同时间段和不同节点的资源利用情况，评估资源的瓶颈和短板。
最后，综合考虑硬件配置和工作负载的特点，评估是否存在资源浪费或者资源不足的情况，调整硬件配置或者优化工作负载，以实现更好的匹配和利用。

互联网服务 · 2024-03-28

查看赞同的人

如何监控和分析HPC平台的资源利用状况,评估工作负载与硬件之间的匹配情况?

查看其它 4 个回答强哥之神的回答

回答者

强哥之神最近回答过的问题

回答状态

如何监控和分析HPC平台的资源利用状况,评估工作负载与硬件之间的匹配情况?

查看其它 4 个回答强哥之神的回答

回答者

强哥之神 最近回答过的问题

回答状态

强哥之神最近回答过的问题