个人意见:
本质上说没有改变,基本都是监控,告警,现场信息收集,生产恢复等几个环节。
但从具体实现细节上说和传统运维比较还是有差别的:
应用上云后,总体上说单个容器的生死不应该对应用产生影响,系统管理员也不应该再关注单个容器的生命周期。系统要做的是定义好应用健康侦测机制、自动重启机制,再有一个重要的就是容器重启前的 现场信息收集机制,保证容器宕机后有信息保留下来分析宕机原因。
容器监控和传统监控还是有区别的:
1、监控频率不一样:容器启停都是秒级,而且扩缩也非常快,对容器的系统监控要求和传统监控是不一样的,传统系统监控可能是分钟级的,容器系统监控是秒级的;
2、数量级不一样的:传统的监控针对基础设备,数量较少,容器是运行在基础设施之上,每个节点可以支撑多个容器实例,我们监控的容器数量至少应该是之前监控设备的10倍;
3、更偏重应用监控:容器随时可以启停,可以动态扩缩容等特点,应用的健康状态对用户来说更重要;
再谈下监控方式:
不建议容器内部安装agent(snmp也算agent的一种),容器本身推荐一个容器跑一个进程,不建议容器当虚拟机使用,推荐无代理方式监控。