Ansiz

迎风向前是唯一的方法


  • 首页

  • 标签41

  • 分类37

  • 归档54

HPC 系列文章(8):第一个Slurm作业

发表于 2018-09-08 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

concept

我们已经搭建好了一个简单的Slurm环境,包含两个计算节点和一个管理节点。接下来我们将尝试往作业系统中提交作业。在这之前我们已经在HPC 系列文章(4):Slurm概览中介绍了包括节点、分区、作业等一些基本概念,在提交作业之前,我们进一步的学习一下这几个概念。

介绍节点和分区的概念,我们先从配置文件中简单了解一下它们,这里我以一个自己编辑的范例配置来介绍,我们先只看节点和分区的部分:

阅读全文 »

HPC 系列文章(7):Debian/Ubuntu安装Slurm

发表于 2018-09-02 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

deploy

上一篇文章中简单介绍了CentOS/Redhat上如何部署Slurm,这里我们再介绍一下在Debian或Ubuntu上如何正确的安装Slurm。这里我们以Debian 8.5(Jessie)为例,其他更新的版本也类似。

通过包管理器安装

最方便的方式是通过包管理器安装,不过apt源中只有较老的版本,通过软件包管理器安装的过程也比较简单,
可以直接参考这篇文档:Slurm Installation on Debian ,我们还是主要介绍如何安装最新版本的Slurm,为了简化流程,我们将在一台机器上部署所有的服务,该节点即是管理节点也是计算节点。

阅读全文 »

HPC 系列文章(6):Slurm部署

发表于 2018-08-26 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

deploy

本节将介绍Slurm实验环境的安装,包括一个控制节点和两个计算节点(控制节点同时作为计算节点),无特殊说明的情况下一下步骤在每个节点上都要执行(仅有少量区别),如果节点比较多可以考虑使用Ansible或者Salt之类的运维管理工具批量操作。

安装准备

关闭SELinux

1
2
3
vim /etc/sysconfig/selinux
配置 SELINUX=disabled
然后重启
阅读全文 »

HPC 系列文章(5):搭建实验环境

发表于 2018-08-19 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

deploy

正所谓纸上得来终觉浅,绝知此事要躬行,经过前面的一些简单的理论知识学习之后,我们要动手进行实验,在进一步学习之前,我们需要安装一个HPC实验环境。安装的过程中我们会对Slurm的架构和配置有更深入的了解,为了降低门槛,我们的实验环境采用尽量简单的部署方式。

阅读全文 »

HPC 系列文章(4):Slurm概览

发表于 2018-08-11 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

Cover

经过前一篇文章的学习,大家应该对HPC集群调度系统有了初步的认识。接下来我们将以Slurm作为调度系统进行HPC作业相关的学习,会深入介绍Slurm的架构、配置及使用。

Slurm概述

Slurm是一个可工作于各种不同规模的Linux集群之上的开源、具备容错性和高度可扩展性的集群管理和作业调度系统。作为一款集群作业调度管理系统,Slurm包含三大主要功能:

  1. 资源分配:在特定时间段内为用户分配对计算资源的独占或非独占访问权限,以便他们可以执行作业。简单的说就是为作业提供对计算资源的授权和分配。
  2. 作业管理:它提供了在分配的节点上启动、执行和监控作业(通常是并行作业)的框架。
  3. 作业调度:通过管理待处理作业的队列来仲裁资源的争用。例如根据优先级或不同当调度策略调整资源的分配顺序。
    阅读全文 »

HPC 系列文章(3):调度系统概览

发表于 2018-08-05 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

Cover

初识集群作业调度系统

经过前面的简单学习,大家应该了解了HPC和集群的基本概念,集群有强大的运算力,那么如何管理集群资源的分配呢?如何管理和实现集群作业调度呢?平时我们在使用一台服务器进行一些作业时,只需要简单的登陆这台服务器执行相关指令即可。不过你是否思考过下面这些问题呢?

  1. 系统中存在若干进程,操作系统会如何安排计算机资源?
  2. 是否可以为某些特定进程分配更多的资源?
  3. 如果我们使用的是多核心处理器,能否让特定的一个或多个核心运行某个程序?
    阅读全文 »

HPC系列文章(2):HPC技术概览

发表于 2018-07-28 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

Cover

什么是高性能运算

在正式学习之前,我们先了解一个非常基本的问题:“究竟什么是高性能计算(HPC)?广义上来说,高性能运算就是使用高性能的计算机完成特定的计算任务。我知道这听上去是一句正确的废话,那我们将这个定义得更详细一些,就目前而言,高性能运算通常指的是通过大量的高性能的计算硬件堆叠而成的计算集群完成特定的计算任务。这里有几个关键词我们分开讨论。

阅读全文 »

HPC系列文章(1):开篇

发表于 2018-07-22 | 更新于 2019-04-28 | 分类于 高性能计算 , HPC | 评论数:

Cover

写在最前

HPC系列文章是一系列关于高性能计算的技术文章,计划每周更新至少一篇高性能计算相关的文章。为什么要写这些文章呢?首要原因是我个人从事相关的研发工作,我一直认为Learning by teaching是最佳的学习和验证学习效果的方式,所以我想将个人了解的相关知识在这里进行梳理。另外一方面是高性能运算实际上服务于我们每个人的日常生活中,被许多热门技术和行业所依赖,但鲜有人深入了解,真正从事这个行业的人并不像Web开发、深度学习等多,针对高性能运算的技术文章也相对较少,我想将这些文章整理成一个系列供感兴趣的朋友学习了解。

阅读全文 »

在Deepin上安装TensorFlow

发表于 2018-07-15 | 更新于 2019-04-28 | 分类于 Linux , 深度学习 | 评论数:

NVIDIA-SMI
Tensorflow是目前热门的深度学习框架,官方提供了较为详细的安装文档,不过是针对主流操作系统的,并不包含Deepin这种国产发行版,所以在安装过程中遇到一些问题,这里简单记录一下安装流程。

阅读全文 »

Deepin——优秀的国产Linux发行版

发表于 2018-07-15 | 更新于 2019-04-28 | 分类于 Linux , 评测 | 评论数:

Desktop

最近想接触一下深度学习相关的东西,需要用到高性能的GPU做支持,家里吃灰大半年的PC终于有机会重新发光发热了。之前购买这台PC主要是为了玩一些大型的单机游戏,配置还算凑合,有1060GTX的显卡+双固态硬盘,装的当然是Window的操作系统。不过Windows真的不太适合用来做这方面的开发,所以就打算在第二块移动硬盘上安装Linux的操作系统。

我平时做开发都是在Linux下,所以对Linux还算比较熟悉,但是平时几乎从来不用桌面环境,不过这次需要比较直观的图像输出,就选了Deepin这款基于Debian的国产桌面操作系统。

阅读全文 »
123…6
张稀虹

张稀虹

迎风向前是唯一的方法

54 日志
37 分类
41 标签
RSS
GitHub Weibo E-Mail Zhihu
© 2015 — 2021 张稀虹