我们是采用Prometheus来监控资源,这个也是业界用的较多的,包括CPU利用率、内存利用率、磁盘IO、网络带宽等,还可以自定义暴露一些指标,比如监控作业调度系统(如Slurm、PBS等)的工作队列情况、作业运行状态以及资源分配情况,了解各个作业的运行时长、优先级、资源需求等信息。
另外,也可以收集历史数据,对资源利用率进行统计与分析,了解不同时间段和不同节点的资源利用情况,评估资源的瓶颈和短板。
最后,综合考虑硬件配置和工作负载的特点,评估是否存在资源浪费或者资源不足的情况,调整硬件配置或者优化工作负载,以实现更好的匹配和利用。