
我们已经搭建好了一个简单的Slurm环境,包含两个计算节点和一个管理节点。接下来我们将尝试往作业系统中提交作业。在这之前我们已经在HPC 系列文章(4):Slurm概览中介绍了包括节点、分区、作业等一些基本概念,在提交作业之前,我们进一步的学习一下这几个概念。
介绍节点和分区的概念,我们先从配置文件中简单了解一下它们,这里我以一个自己编辑的范例配置来介绍,我们先只看节点和分区的部分:

我们已经搭建好了一个简单的Slurm环境,包含两个计算节点和一个管理节点。接下来我们将尝试往作业系统中提交作业。在这之前我们已经在HPC 系列文章(4):Slurm概览中介绍了包括节点、分区、作业等一些基本概念,在提交作业之前,我们进一步的学习一下这几个概念。
介绍节点和分区的概念,我们先从配置文件中简单了解一下它们,这里我以一个自己编辑的范例配置来介绍,我们先只看节点和分区的部分:

上一篇文章中简单介绍了CentOS/Redhat上如何部署Slurm,这里我们再介绍一下在Debian或Ubuntu上如何正确的安装Slurm。这里我们以Debian 8.5(Jessie)为例,其他更新的版本也类似。
最方便的方式是通过包管理器安装,不过apt源中只有较老的版本,通过软件包管理器安装的过程也比较简单,
可以直接参考这篇文档:Slurm Installation on Debian
,我们还是主要介绍如何安装最新版本的Slurm,为了简化流程,我们将在一台机器上部署所有的服务,该节点即是管理节点也是计算节点。

正所谓纸上得来终觉浅,绝知此事要躬行,经过前面的一些简单的理论知识学习之后,我们要动手进行实验,在进一步学习之前,我们需要安装一个HPC实验环境。安装的过程中我们会对Slurm的架构和配置有更深入的了解,为了降低门槛,我们的实验环境采用尽量简单的部署方式。
![]()
经过前一篇文章的学习,大家应该对HPC集群调度系统有了初步的认识。接下来我们将以Slurm作为调度系统进行HPC作业相关的学习,会深入介绍Slurm的架构、配置及使用。
Slurm是一个可工作于各种不同规模的Linux集群之上的开源、具备容错性和高度可扩展性的集群管理和作业调度系统。作为一款集群作业调度管理系统,Slurm包含三大主要功能:

Tensorflow是目前热门的深度学习框架,官方提供了较为详细的安装文档,不过是针对主流操作系统的,并不包含Deepin这种国产发行版,所以在安装过程中遇到一些问题,这里简单记录一下安装流程。

最近想接触一下深度学习相关的东西,需要用到高性能的GPU做支持,家里吃灰大半年的PC终于有机会重新发光发热了。之前购买这台PC主要是为了玩一些大型的单机游戏,配置还算凑合,有1060GTX的显卡+双固态硬盘,装的当然是Window的操作系统。不过Windows真的不太适合用来做这方面的开发,所以就打算在第二块移动硬盘上安装Linux的操作系统。
我平时做开发都是在Linux下,所以对Linux还算比较熟悉,但是平时几乎从来不用桌面环境,不过这次需要比较直观的图像输出,就选了Deepin这款基于Debian的国产桌面操作系统。