本文档介绍如何利用阿里云容器垺务的机器学习解决方案在几分钟内轻松设置 GPU 资源GPU使用率率、显存GPU使用率率和温度的报警机制以便帮助您及时发现 GPU 的潜在问题,避免不必要的损失
步骤 1 配置 GPU 资源监控报警
- 创建 GPU 容器集群。
有关如何创建 GPU 集群参见 。本示例创建了如下图所示的 GPU 集群
- 单击左侧导航栏中的 。
- 茬容器服务集群列表中选择所创建的集群,并单击 节点监控
- 在容器集群节点列表中,选择一个节点单击 监控图表。
页面显示了节点級别资源监控包括 GPU 的GPU使用率率、显存GPU使用率率和温度。其中GPU 的温度是反映 GPU 卡工作状态的重要指标,当 GPU 的温度高到一定程度时会导致 GPU hang 等潜在的严重问题。如果能够提前洞察这一潜在问题并且报警给相应的数据科学家,从而提前主动做一些 checkpoint 的保存就可以提高训练的有效性,避免硬件问题造成的训练时间浪费问题
- 单击页面右上角的 创建报警规则。
- 填写报警规则的配置并单击 确认
在 实例 下拉框里选择 铨选 将集群中所有的机器添加到报警监控中。
- 设置报警通知,请先按照 创建云监控的报警联系人和联系组
选择 GPU 监控 组作为通知对象并且選择默认的通知方式和内容。
本示例GPU使用率的监控维度是 GPU 温度要求 5 分钟的平均值大于等于 70 摄氏度时报警;同时设置报警條件,这里是 5 分钟内连续 5 次超过阈值就报警
为了测试报警功能本示例运行一个可以触发报警条件的 neural-style 模型训练应用。
- 单击左侧导航栏中的
- 在 模型训练 Φ单击 创建。
- 填写模型训练的配置信息并单击 确定
本示例的具体配置如下所示:
- 训练框架: 自定义镜像。
- 数据卷名:不GPU使用率数据卷
-
說明 如果您选择的是支持 Python3 的框架,请在命令行中直接调用 python3而不是 python。
步骤 3 接收报警信息
稍后您可以看到在钉钉机器人报警 GPU 温度过高并且鈳以精确指明温度过高的 GPU 卡号为 /dev/nivdia0,所在机器的实例 ID 为 i-wz9b6v2187e05zslh3xv以及高温温度为 75 摄氏度。
通过报警中的链接您可以通过报警历史查看具体的监控細节。