Qq
作者Qq联盟成员·2024-04-24 10:01
工程师·红宇精密

制造行业如何进行仿真场景HPC平台的需求与资源配置规划(同业交流共识总结)

字数 6787阅读 2855评论 3赞 3

一、导语

随着半导体行业的高速发展,芯片工艺及制程越来越精密,模拟仿真也已经成为制造企业在进行目标系统设计时,为满足功能、性能、功耗和其他指标要求所需要的一项重要业务流程。由于实际系统的复杂度、精细度的快速提升,要进行模拟仿真的需求的不断增长,以及效率要求的提升,模拟仿真对于算力基础设施提出了苛刻的要求,对仿真、模拟、测试等方面的工作面临巨大的算力瓶颈。

本期线上同行交流 twt 社区特别邀请五位制造企业技术专家一同参与线上的交流探讨,本期重点从 “ 汽车制造行业如何进行有效 HPC 算力需求预测? ” 、 “ 制造企业在推广利用 HPC 进行仿真测试时 , 可能遇到哪些挑战 ? 如何推进 HPC 在企业中的应用 ?” 、 “ 是否可以考虑混合云的 HPC 解决方案 , 根据计算需求弹性调用云资源 , 降低投入成本 ?” 、 “ 如何监控和分析 HPC 平台的资源利用状况 , 评估工作负载与硬件之间的匹配情况 ?” 四个方面交流主题进行总结,帮助同行快速进行 HPC 仿真需求与资源配置规划。

主稿嘉宾:杨承龙 某机械制造企业 资深工程师
互动嘉宾:
陈强 某大型汽车制造企业 架构师&技术经理
李瑞雄 某大型汽车制造企业 集团流程与数字化部IT共享服务中心高级经理
陈毅 某制造企业 HPC负责人
宗磊 某大型制造企业 IT资深运维专家

二、议题研讨内容

( 1 )汽车制造行业如何进行有效 HPC 算力需求预测?

对于 HPC 算力需求的不断增加和计算需求的不确定性,是否可以做到有效的资源需求预测,以免多建浪费,少建满足不了需求?

嘉宾: Qq 红宇精密
汽车制造行业有效预测 HPC 算力的需求,通常从以下四个方面进行综合预估:

  1. 业务需求分析
    产品开发阶段:模拟风洞测试、结构力学分析、流体动力学分析、碰撞模拟、 NVH (噪声、振动与声振粗糙度)分析、电池热管理模拟等都需要大量计算资源。
    生产优化阶段:生产线仿真、工艺流程模拟、机器人路径规划等同样依赖 HPC 。
    数据处理与分析:车联网数据、自动驾驶产生的海量数据、 AI 算法训练等也需要强大的计算能力。
  2. 算力需求预测
    量化需求:根据现有的项目需求和未来项目计划,量化每个应用场景所需的计算量( FLOPS 、 CPU 、 GPU 等)。
    成长预期:考虑技术和市场趋势,例如电动汽车的普及可能导致电池仿真需求剧增,智能化程度加深会加大 AI 相关的计算需求。
    峰值与常态负载:识别出计算高峰时段和长期稳定负载,以确定是否需要弹性扩展的算力资源。
  3. 算力类型选择
    CPU vs GPU vs FPGA :根据不同计算任务的特点选择适合的硬件类型,例如 CPU 适用于通用计算, GPU 擅长并行计算和图形处理, FPGA 和 ASIC 则可用于定制化的高效计算场景。
    异构计算:考虑到混合架构能够有效利用不同类型处理器的优势,可能会选择集成 CPU+GPU 或其它加速器的解决方案。
  4. 成本效益分析
    考虑硬件购置成本、运行维护成本、电力消耗成本以及潜在的软件许可费用。
    评估投资回报周期,对比租用云服务与自建数据中心的成本差异。
    我们公司主要根据仿真业务场景进行需求评估,了解各业务场景对 HPC 平台的具体,如产品研发仿真业务、 NVH 、试验等业务,结合历史数据分析,通过历史数据和模型大小,对 HPC 算力需求进行预测,同时,邀请多家 HPC 供应商进行 POC 测试论证,结合公司产品战略规划进一步评估。

嘉宾:一一 某制造业
对于算力需求的预测,其实根源来自于对业务的预测
业务算力的需求其实是可以大概测算出来的,比如一个产研研发 分成 5 个阶段需要使用 HPC 算力资源 ABCDE 阶段,
假如 A 阶段 需要计算 5 轮次,每轮需要计算 100 个作业,每个作业大致需要 3 天,按照自然日排列
假如 B 阶段 需要计算 3 轮次,每轮需要计算 200 个作业,每个作业大致需要 5 天,按照自然日排列
假如 C 阶段 需要计算 10 轮次,每轮需要计算 300 个作业,每个作业大致需要 4 天,按照自然日排列
假如 D 阶段 需要计算 5 轮次,每轮需要计算 100 个作业,每个作业大致需要 4 天,按照自然日排列
假如 E 阶段 需要计算 3 轮次,每轮需要计算 100 个作业,每个作业大致需要 2 天,按照自然日排列
再结合每个项目的开发周期的实施路径,不同项目,不同阶段,叠加后,自然后就可以评估处 平均值,峰值,峰谷,集中阶段。

嘉宾: lrx00056015 福田汽车 IT运维主管
对于 HPC 算力的需求预测,主要还是从以下两方面分析:
1 、业务需求评估,加强与用户沟通,了解用户的新需求,如电池仿真业务、智能驾驶的需求
2 、历史数据分析,建立一个动态的监控和评估机制,定期评估 HPC 资源的使用情况和性能表现,以及市场需求的变化。通过系统监控,历史数据分析,对 HPC 算力需求进行预测, 及时调整资源分配和优化策略,确保资源的有效利用
3 、基于云的服务,目前部分企业使用混合云的基础架构进行 HPC 算力执行,因此可以基于云的服务优化资源分配,提高计算效率,同时降低初期投资成本。
汽车制造行业进行有效的 HPC 算力需求预测,需要综合考虑市场需求、技术创新、合作共享等多个方面,通过持续的监控和评估,灵活调整策略,来适应快速变化的技术环境和市场需求。

( 2 )制造企业在推广利用 HPC 进行仿真测试时 , 可能遇到哪些挑战 ? 如何推进 HPC 在企业中的应用 ?

嘉宾: rayz 某大型制造企业 IT经理
HPC 平台遇到的挑战我认为除了大量的软硬件基础设施的建设成本外,还有对于 HPC 集群平台的资源进行有效地管理和利用这些资源,确保任务可以高效地执行,是个挑战。
还有对数据的安全管理,容量管理也是挑战,仿真测试通常涉及大量的输入数据和生成的输出数据。在 HPC 环境中,如何高效地处理和存储备份这些数据,并确保数据的安全性和一致性也至关重要的。
HPC 环境中常用的软件和工具集与传统的计算环境有所不同,研发员工需要适应和掌握这些工具,以有效地利用 HPC 系统进行仿真测试。

嘉宾:强哥之神 上汽云计算中心 架构师 & 技术经理
仿真测试,我觉得成本与技术是两大挑战:
1 、成本比如硬件设备、软件许可,所以现在一般采用云计算,混合云(主要是看哪家成本低,性价比高)等方式,减少初期的资本投入。
2 、技术比如开发、管理和维护 HPC 、仿真系统, 一般需要云计算和仿真、 AI 专业的技术和经验,而制造企业可能缺乏此类人才,可以与专业的 HPC 服务提供商合作、仿真软件厂商合作,这样稍微容易一些。
3 、 HPC 测试时,所需要的数据量较大,对数据的管理及数据的安全管理本身就是一个挑战。测试时,一般涉及到数据存储、备份、传输和安全等方面的难点。
4 、 HPC 在测试时,还需要针对具体的生产流程和产品设计进行定制化的应用开发和集成,所以需要考虑定制、集成的挑战。

嘉宾: lrx00056015 福田汽车 it 运维主管
企业在推广利用 HPC 进行仿真测试时,可能遇到的挑战主要包括:

  1. 性能优化问题:企业用户需要基于自身的应用需求特征来进行定制化匹配,通过测试工具对 HPC 系统进行精细化的研究分析,找到可以调整和优化的部分。
  2. AI 与 HPC 的融合挑战:在过去的 CPU 架构中, AI 密集型工作负载通常会牺牲内核数来换取速度,而 HPC 工作负载则倾向于更高的计算性能、更多的内核和更大的内核间带宽。
  3. 虚拟化技术的应用挑战:虚拟化技术能够提高商用高端服务器的利用率,传统高性能计算技术( HPC ) 的推广受到很大挑战。
  4. 硬件架构面临的多样性的计算挑战:例如大数据,传统的科学工程计算需求与深度学习等新兴应用的需求存在差异。
  5. 成本挑战: HPC 主要问题在于企业自上而下的对于虚拟试验的重视,对虚拟试验越重视,则仿真投入越大,则产品研发效率和质量都可以得到大幅的提升,投入分三块:软件( CAE 软件及 license ) + 硬件(机房服务器存储网络) + 人才( HPC 管理和 CAE 工程专家)几个维度必须配合,一个地方有问题则全局效率受损失。

( 3 )是否可以考虑混合云的 HPC 解决方案 , 根据计算需求弹性调用云资源 , 降低投入成本 ?

嘉宾: lrx00056015 福田汽车 it运维主管
在线下 HPC 资源紧张的情况下,混合云解决方案是一个不错的方向,可以利用云资源的快速、弹性能力,但是需要注意公有云资源的使用成本,以及数据传输的安全,建议本地负责 HPC 日常计算资源需求, 云端负责突发的、峰值资源需求。
使用公有云可以实现,以下三方面的好处:

  1. 弹性扩展:突破传统超算中心限制,提供无限的计算和存储能力,根据工作负载配置资源,实时应用到高性能节约建设周期,配置多样性满足不同场景
  2. 混合调度:线上线下协同,资源按弹性需求统一调度, 互为补充,缩短作业计算时间满足突发需求。
  3. 合作分享:数据集中,跨组织和地域合作共享,联合设 计和研发。
    搭建自建机房到公有云之间的网络通讯模式,需要考虑如下两个方面:
  4. 网络连接模式,综合可靠性、安全性等要求,本地私有云与公有云之间的网络互联,建议考虑点对点的数据专线,专线选用负载的模式,设置 QOS ,保障核心应用,节省网络带宽成本。
  5. 算力的需求定位,建议以本地私有云算力为主,公有云算力为辅,仅在突发算力需求时启用公有云资源,公有云算完后,将结果进行回传,节省带宽容量需求。

嘉宾:强哥之神 上汽云计算中心 架构师 & 技术经理
在满足企业对数据安全要求的前提下是可以根据实际计算需求灵活利用公有云 HPC 计算资源 , 降低成本的,
根据实际使用情况灵活选择使用公有云 HPC 资源。对于一些临时、突发性的或不经常使用的计算任务,可以选择根据时长计费方式使用公有云 HPC 资源,避免长期的资本投资和维护成本。
不过在混合云 HPC 环境中,对数据安全管理方面是很重要,由于数据可能在私有 HPC 集群和公有云之间迁移,需要确保数据的安全性、完整性和一致性。同时还需要考虑数据的传输速度和延迟,以便在不同云环境之间进行高效的加密数据传输。
而且在跨云平台集成方面,需要确保本地 HPC 集群和公有云 HPC 环境之间的互操作性和兼容性,以便无缝地迁移和管理工作负载。

嘉宾: Qq 红宇精密 工程师
目前混合云 HPC 方案逐渐成为行业主流的、性价比较高的解决方案,对于常态化仿真业务通常使用本地 HPC 集群,云端 HPC 集群主要应对临时、紧急的仿真,用户可以根据实际工作负载自动扩展或收缩计算资源,真正实现按需分配。但在数据安全方面,使用云端 HPC 集群时,建议先将数据样本进行预处理,云端仅仿真处理过后的数据。

( 4 )如何监控和分析 HPC 平台的资源利用状况 , 评估工作负载与硬件之间的匹配情况?

嘉宾: rayz 某大型制造企业 IT 经理
除了在 HPC 平台节点上部署 Zabbix 、 Prometheus 等监控软件进行资源利用的监控外,也需收集 HPC 集群的日志和事件,进工作行负载评估,资源利用分析。
HPC 平台会产生大量的日志和事件数据,记录了系统的运行状态和操作历史。这些数据经过清除后,可以进行系统性能、资源利用情况和故障排除。通过日志分析工具如 ELK ( Elasticsearch 、 Logstash 和 Kibana )可以对日志数据进行集中管理、搜索和可视化,以便了解系统的运行情况,和硬件资源的情况
也可以通过性能分析工具来评估工作负载与硬件之间的匹配情况,这些工具可以帮助检测性能瓶颈和优化方向,例如, Intel VTune 、 AMD ROCm Profiler 、 Allinea MAP 等工具提供了对应用程序的性能分析和调优功能,可以帮助识别瓶颈,并提供优化建议。

嘉宾:匿名用户
高性能计算 (HPC) 平台的资源监控和分析是确保其高效运行的关键组成部分。对 HPC 平台进行有效监控可以帮助您评估工作负载与硬件的匹配情况,优化资源分配,并确保应用程序高效运行。以下是一些建议和策略:

  1. 基本硬件监控:
    CPU 利用率:检查 CPU 核心的使用情况,确保它们没有过载。
    内存使用情况:监视 RAM 的总使用量和各个应用的使用情况。
    磁盘 I/O :检查读 / 写速度和磁盘队列长度,以查找可能的瓶颈。
    网络带宽:评估数据传输速率、丢包率和其他网络性能指标。
  2. 应用程序和作业调度器监控:
    使用作业调度器(如 SLURM 、 Torque 或 PBS )的日志和监视工具来跟踪作业的状态、运行时间和资源使用情况。
    监视并分析应用程序的输出和日志,以确定任何性能问题或资源浪费。
  3. 高级性能分析工具:
    使用专门的 HPC 性能分析工具,如 Intel VTune 、 TAU 或 Score-P ,来深入分析应用程序性能。
    这些工具可以帮助您识别代码中的瓶颈、并行效率问题或其他优化点。
  4. 集群健康和稳定性监控:
    使用如 Ganglia 、 Nagios 或 Zabbix 这样的工具来监控整个 HPC 环境的健康状况和稳定性。
    定期检查硬件健康状况,例如 CPU 温度、风扇速度和其他传感器数据。
  5. 资源利用率和效率:
    比较申请的核心数与实际使用的核心数。如果应用程序没有充分利用所有分配的核心,那么可能存在优化空间。
    考虑 CPU/GPU 利用率与功耗之间的关系,以评估集群的能效。
  6. 瓶颈分析:
    使用性能分析工具定期检查并确定任何可能的瓶颈,无论是硬件还是软件。

嘉宾:强哥之神 上汽云计算中心 架构师 & 技术经理
我们是采用 Prometheus 来监控资源,这个也是业界用的较多的,包括 CPU 利用率、内存利用率、磁盘 IO 、网络带宽等,还可以自定义暴露一些指标,比如监控作业调度系统(如 Slurm 、 PBS 等)的工作队列情况、作业运行状态以及资源分配情况,了解各个作业的运行时长、优先级、资源需求等信息。
另外,也可以收集历史数据,对资源利用率进行统计与分析,了解不同时间段和不同节点的资源利用情况,评估资源的瓶颈和短板。
最后,综合考虑硬件配置和工作负载的特点,评估是否存在资源浪费或者资源不足的情况,调整硬件配置或者优化工作负载,以实现更好的匹配和利用。

三、议题共识综述

综合专家观点,制造行业在进行 HPC 算力需求与资源配置时,需全面考虑业务需求、算力预测、硬件选型、成本效益,以及面临的挑战与应对策略,形成综合且适应市场变化的规划方案,可以有效地预测资源需求,以避免多建浪费,少建满足不了需求的情况。同时,还需要根据实际情况进行灵活调整和优化,以满足不断变化的需求,最终实现资源利用合理化、计算效率最大化。

( 1 )业务需求分析

  • 产品开发阶段 :考虑模拟风洞测试、结构力学分析、流体动力学分析、碰撞模拟、 NVH 分析、电池热管理模拟等具体应用场景对 HPC 资源的需求。
  • 生产优化阶段 :包括生产线仿真、工艺流程模拟、机器人路径规划等对 HPC 的依赖。
  • 数据处理与分析 :评估车联网数据处理、自动驾驶数据处理、 AI 算法训练等任务所需的计算能力。

( 2 )算力需求预测

  • 量化需求 :根据现有项目需求和未来项目计划,明确各应用场景所需的计算量(如 FLOPS 、 CPU 、 GPU 等)。
  • 成长预期 :结合技术和市场趋势预测未来需求增长点,如电动汽车对电池仿真需求的影响,以及智能化程度提升带来的 AI 计算需求增加。
  • 峰值与常态负载识别 :分析计算高峰期和长期稳定负载,判断是否需要配置具有弹性的算力资源以应对需求波动。

( 3 )硬件类型选择

  • 算力选型 :根据计算任务特点选择合适的硬件,如 CPU 适用于通用计算, GPU 适用于并行计算和图形处理, FPGA 和 ASIC 适用于特定领域的高效计算。
  • 异构计算 :考虑采用集成 CPU+GPU 或其他加速器的混合架构,以充分利用不同处理器的优势。

( 4 )成本效益分析

  • 成本评估 :计算硬件购置、运行维护、电力消耗以及可能的软件许可费用。
  • 投资回报分析 :比较自建 HPC 系统与租用云服务的成本,确定最优的投资策略和回报周期。

( 5 )挑战应对与推进策略

  • 资源管理与效率 :解决 HPC 集群资源有效管理和高效利用的问题,确保任务高效执行。
  • 数据安全与容量管理 :制定数据安全管理策略,应对大容量数据的存储、备份、传输和一致性问题。
  • 员工培训与工具适应 :培训研发人员熟悉 HPC 环境中特有的软件工具,确保其能有效利用 HPC 系统进行仿真测试。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论3 条评论

zbjjyyzbjjyy运维Se
6天前
有机会希望可以听到关于冷热的规划仿真场景的相关分享
一一一一IT产品高级经理制造业
2024-04-26 13:28
若能从需求到落地、维护的整体方案以及如何展开,展开的哪些注意点就更好了
wangzimingsq88wangzimingsq88软件开发工程师本钢矿业公司
2024-04-26 12:42
制造行业如何进行仿真场景HPC平台的需求与资源配置规划,应重点在哪些传统制造业和新型制造业的应用案例,性价比如何,对比其他厂家有哪些竞争优势?对于平台的方法、装置及设备与流程应进行详细具体说明!!!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广