2025/05/04 Updated by

Docker Image を自作する (5)

PyTorch23.02 + sshd


[Up] Japanese English
このページ内での表記:
「ホストOSの対話環境」は背景色を黄色(lightyellow)で表す。
「Conainer 内の root 権限の対話環境」は背景色を水色(azure)であらわす。
「Conainer 内の一般ユーザ権限の対話環境」は背景色を赤色(#ffeeee)であらわす。
「他のPCの対話環境」は紫色(#eeeeff)で表す。

前提条件

[メモ] これは、「大規模言語モデル入門」の8章のコードの8-4-simcse-faiss.ipynb を動かすための docker image である。

nVidia GPU (CUDA) に対応した Docker Image を探す

NVIDIA Optimized Frameworks: PyTorch Release Notes
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch/tags?version=25.09-py3
nVidia のサイトで pytorch に対応している container を探す。 本の出版が 2023年7月なので、その少し前にリリースされたバージョンを使ってみる。
PyTorch Release 23.02

Ubuntu 20.04 including Python 3.8
NVIDIA CUDA® 12.0.1
NVIDIA cuBLAS from CUDA 12.0.1
NVIDIA cuDNN 8.7.0.84
NVIDIA NCCL 2.16.5 (optimized for NVIDIA NVLink®)
NVIDIA RAPIDS™ 22.12.0
Apex
rdma-core 36.0
NVIDIA HPC-X 2.13
OpenMPI 4.1.4+
GDRCopy 2.3
TensorBoard 2.9.0
Nsight Compute 2022.4.1.6
Nsight Systems 2022.5.1
NVIDIA TensorRT™ 8.5.3
Torch-TensorRT 1.4.0dev0
NVIDIA DALI® 1.22.0
MAGMA 2.6.2
JupyterLab 2.3.2 including Jupyter-TensorBoard
Container   Ubuntu   CUDA      PyTorch          TensorRT
version              Toolkit
---------  --------  -------  ---------------   --------
23.02      20.04     12.0.1   1.14.0a0+44dac51  8.5.3

原本とする Docker Image の検討

検討事項

結論

23.02 を原本の Docker Image として用いる。 Pythonのバージョンが 3.8 である(3.9以上でない)ことから生じる「関数引数の generics 」問題に関しては、 ipynb の関数宣言を変更することで対応する。 vcr.io/nvidia/pytorch:23.07-py3

確認

以下の方法で起動した llm02 は、python 3.8 だが torch.__version__ は 2.4.1+cu121 に更新されていた。

nVidia 公式の Docker Image (PyTorch) を用いて sshd が自動起動するカスタムイメージを作成する

方針

作成手順

  1. Windows11 上の Ubuntu-20.04 (WSL) を使って作業を進める。
  2. Windows において WSL のファイルシステムは \\wsl$\Ubuntu-20.04\home\nitta にあることに注意すること。 Ubuntu-20.04 から、Windows11 のホームディレクトリは /mnt/c/User/nitta/ として見える。
  3. 作業用フォルダを作成する
  4.   $ cd /mnt/c/Users/nitta/Documents/docker 
      $ mkdir -p torch2302_sshd  
      $ cd torch2302_sshd  
    
  5. 作業用フォルダの中に Dockerfile を作成する。
  6. Dockerfile
    # ゲストOS: Ubuntu 20.04 LTS
    
    #FROM pytorch:23.02-py3
    FROM nvcr.io/nvidia/pytorch:23.07-py3
    
    # Change Your Own UNAME, UID, GID, PASS
    
    ENV UNAME=guest
    ENV UID=3000
    ENV GID=3000
    ENV PASS=password
    
    ENV SSHD_PORT=22
    
    # 必要なパッケージのインストール
    
    RUN apt-get update && \
        DEBIAN_FRONTEND=noninteractive apt-get install -y \
        sudo \
        bash \
        openssh-server \
        supervisor \
        && rm -rf /var/lib/apt/lists/*
    
    
    # SSH 設定: パスワード認証を有効化
    
    RUN sed -i 's/#PasswordAuthentication yes/PasswordAuthentication yes/' /etc/ssh/sshd_config && \
        sed -i "s/^#Port.*/Port ${SSHD_PORT}/" /etc/ssh/sshd_config && \
        mkdir /var/run/sshd
    
    
    # supervisord の設定ファイルを設置する (Daemon 起動用)
    
    RUN mkdir -p /var/log/supervisor
    COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf
    
    
    # ポート開放
    
    EXPOSE 22
    
    
    # Copy Shell Script "entrypoint.sh"
    
    COPY entrypoint.sh /entrypoint.sh
    RUN chmod +x /entrypoint.sh
    
    
    ## Python
    RUN pip install datasets              # HuggingFace
    RUN pip install transformers          # HuggingFace
    RUN pip install fugashi               # 形態素解析 MeCab 用の Python Wrapper
    RUN pip install ipadic unidic-lite    # ipadic: 辞書データ, unidic-lite: 軽量版辞書
    RUN pip install torchaudio
    RUN pip install faiss-gpu
    
    
    ######
    
    ENTRYPOINT ["/entrypoint.sh"]
    
    CMD []
    
  7. 作業用フォルダの中に entrypoint.sh を作成する
  8. entrypoint.sh
    授業で配布するプリントを参照して下さい。
    
  9. 作業用フォルダの中に supervisord.conf を作成する
  10. supervisord.conf
    # supervisord の設定ファイル
    
    [supervisord]
    nodaemon=true
    
    
    # sshd を起動する
    
    [program:sshd]
    command=/usr/sbin/sshd -D -e
    autostart=true
    autorestart=true
    stdout_logfile=/var/log/sshd_stdout.log
    stderr_logfile=/var/log/sshd_stderr.log
    
  11. Image を build する。
  12.   $ docker build -t torch2302_sshd .  
      ...
    成功
    
  13. 生成した Image を確認する
  14. $ docker image ls  
    REPOSITORY                  TAG             IMAGE ID       CREATED          SIZE
    torch2302_sshd              latest          a24fa0f50b65   38 seconds ago   27.3GB
    ...
    
  15. (注意) 上で用意した supervisod.conf は、Container の /etc/supervisor/conf.d/supervisord.conf というパスにコピーしている。 supervisord を起動するときに設定ファイルとして指定しているのは、標準でインストールされる /etc/supervisor/supervisord.conf である。このファイルには /etc/supervisor/conf.d/*.conf をインクルードするように記述されている。
  16. [参考] 標準の /etc/supervisor/supervisord.conf
    授業で配布するプリントを参照して下さい。
    

Container 用の永続的なファイルシステムを作成する

コンテナに永続的なファイルシステムを提供するために、1777 のパーミッションでフォルダを作っておく。 skicky bit が on (1777) のフォルダには、 「誰でもファイルを作成できるが、作成した本人だけがファイルを変更したり消したりできる」 という特徴がある。

$ sudo mkdir -p /home/docker            ← ディレクトリを作成する
$ sudo chmod 1777 /home/docker          ← 誰でもファイルを作成できるが、作成した本人にしか消去できないモードに設定する
$ ls -ld /home/docker                   ← ディレクトリのsticky bit が on になっていることを確認する。
drwxrwxrwt 3 root root 4096  4月 26 15:47 /home/docker

Docker Contaner を生成する

Image ubuntu24_sshd のデフォルトのユーザ情報とSSHサーバ情報を用いて、 新しい Container ubuntu24-sshd を生成する。

  1. Image から Container を生成して起動する。ユーザ情報はデフォルト値 (guest) を利用する。 Container のファイルシステム内にホストOSのディレクトリをマウントする。 Container を起動するたびに、sshd サーバが起動される。
  2. $ docker run --name llm02 \
        --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 --gpus all \
        --restart always \
        -p 7072:22 -p 8082:8888 \
        -v /home/docker/llm02:/mnt/hostos \
        -it torch2302_sshd  
    
    起動オプション
  3. Container を起動した対話環境が、そのまま Container 内で動作する bash との対話環境になる。root権限でloginした状態である。
  4. First run. Setting up ...       ← 生成された Container 内で entrypoint.sh が実行される
    Creating group guest with GID=3000
    Creating user guest with UID=3000, GID=3000
    ownership of '/home/guest' retained as guest:guest
    No command provided. Starting bash ...
    root@af401d3cdf85:/# 2025-05-11 09:32:40,710 CRIT Supervisor is running as root.  Privileges were not dropped because no user is specified in the config file.  \
    If you intend to run as root, you can set user=root in the config file to avoid this message.
    2025-05-11 09:32:40,711 INFO supervisord started with pid 38
    2025-05-11 09:32:41,715 INFO spawned: 'sshd' with pid 41
    2025-05-11 09:32:42,717 INFO success: sshd entered RUNNING state, process has stayed up for > than 1 seconds (startsecs)
    #              ← Container 内の対話環境 (root権限の bash) が動く
    
  5. (重要) (Container 内で) 直ちに新規ユーザ guest のパスワードを変更する。
  6. $ passwd guest   
    New password:                   ← 新しいパスワード を入力する。
    Retype new password:            ← もう一度新しいパスワード を入力する。
    passwd: password updated successfully
    
  7. (Container 内で) ホストOSのマウントポイントを調べる。
  8. # ls -ld /mnt/hostos    
    drwxr-xr-x 2 root root 4096 May 11 09:32 /mnt/hostos
    
  9. (Container 内で) 新規ユーザのホームディレクトリを調べる。
  10. # ls -ld /home/guest    
    drwxr-x--- 2 guest guest 4096 May 11 09:32 /home/guest
    # ls -la /home/guest    
    total 20
    drwxr-x--- 2 guest guest 4096 May 11 09:32 .
    drwxr-xr-x 1 root  root  4096 May 11 09:32 ..
    -rw-r--r-- 1 guest guest  220 Mar 31  2024 .bash_logout
    -rw-r--r-- 1 guest guest 3771 Mar 31  2024 .bashrc
    -rw-r--r-- 1 guest guest  807 Mar 31  2024 .profile
    
  11. (Container 内で) Control-P と Control-Q を順にタイプして、ホストOSの対話環境に戻る。 Container 内のシェルは動作したままとなる。
  12. # ^p ^q                ← Container の対話環境を抜ける
    $              ← ホストOS 内の対話環境に戻る
    
  13. (ホストOS上) Container からマウントされているホストOSのディレクトリを調べる。
  14. $ ls -ld /home/docker/sshd   
    drwxr-xr-x 2 root root 4096  5月 11 18:32 /home/docker/sshd
    
  15. (ホストOS上) docker 上の実行中の container の状態を調べる
  16. $ docker container ls   
    CONTAINER ID   IMAGE           COMMAND            CREATED         STATUS         PORTS                                       NAMES
    af401d3cdf85   ubuntu24-sshd   "/entrypoint.sh"   4 minutes ago   Up 4 minutes   0.0.0.0:10022->22/tcp, [::]:10022->22/tcp   ubuntu24-sshd
    
  17. (ホストOS上) docker 上のすべての(停止中を含む) container の状態を調べる
  18. $ docker container ls -a   
    CONTAINER ID   IMAGE           COMMAND            CREATED         STATUS         PORTS                                       NAMES
    af401d3cdf85   ubuntu24-sshd   "/entrypoint.sh"   4 minutes ago   Up 4 minutes   0.0.0.0:10022->22/tcp, [::]:10022->22/tcp   ubuntu24-sshd
    
  19. (ホストOS上) docker 上の Image の一覧を表示する。
  20. $ docker image ls   
    REPOSITORY      TAG       IMAGE ID       CREATED             SIZE
    ubuntu24-sshd   latest    23164575e4d2   About an hour ago   222MB
    ubuntu24-user   latest    7b64f0b8bea1   3 hours ago         81.4MB
    

Docker Host から ssh を用いてContainer 内の対話環境にアクセスする

  1. ホストOSから、Continer の guest ユーザのアカウントに ssh でアクセスする。
  2. $ ssh -p 10022 guest@localhost ← ホストOSの 10022 番ポートに sshアクセスする ... Are you sure you want to continue connecting (yes/no/[fingerprint])? yes ... guest@localhost's password: パスワードを入力する。エコーバックされない。
    Welcome to Ubuntu 24.04.2 LTS (GNU/Linux 6.11.0-25-generic x86_64) ... $ ← Container 内の guest 権限の対話環境が開始する
  3. (Container 内の guest 権限で) ユーザ名を表示する。
  4. $ whoami   
    guest
    
  5. (Container 内の guest 権限で) ホームディレクトリを表示する。
  6. $ pwd   
    /home/guest
    
  7. (Container 内の guest 権限で) ホームディレクトリにあるファイルの一覧を表示する。
  8. $ ls -la   
    total 24
    drwxr-x--- 3 guest guest 4096 May 11 09:35 .
    drwxr-xr-x 1 root  root  4096 May 11 09:32 ..
    -rw-r--r-- 1 guest guest  220 Mar 31  2024 .bash_logout
    -rw-r--r-- 1 guest guest 3771 Mar 31  2024 .bashrc
    drwx------ 2 guest guest 4096 May 11 09:35 .cache
    -rw-r--r-- 1 guest guest  807 Mar 31  2024 .profile
    
  9. (Container 内の guest 権限で) ssh 経由の対話環境を終了する。
  10. guest@af401d3cdf85:~$ exit logout
    Connection to localhost closed. $

他のPCからネットワーク経由で Container 内の対話環境にアクセスする

  1. (ホストOS上) 外部のPCからネットワーク経由で Container にアクセスするためには、ホストOSの 10022 番ポートを開けておく必要がある。
  2. Docker の公式文書では、「docker のポートフォワーディングは ufw のフィルタリングよりも前に行わるために、ufw の影響を受けない」 と記述されている (2025年春時点) が、これは現時点では間違いのようだ。 Containerに外部からアクセスするためには、ホストOSのポートを開けておく必要がある。

    Ubuntu 24.04LTS の場合: ufw を用いる
    1. (ホストOS上) ファイアウォール ufw を有効化する。(既に有効化してあれば必要なし)
    2.   $ sudo apt update                          ← aptのデータベースを更新する
        $ sudo apt install -y ufw                  ← ufw をインストールする。
        $ sudo systemctl enable ufw                  ← ufw を有効化する
        $ sudo systemctl restart ufw                  ← ufw を再起動する
        
    3. (ホストOS上) ホストOSの 10022 番ポートを開放する。
    4.   $ sudo ufw allow 10022                          ← 10022 番ポートを開放する
        ルールを追加しました
        ルールを追加しました (v6)
        
    5. (ホストOS上) ファイアウォールの状態を確認する。
    6.   $ sudo ufw status 10022                          ← 10022 番ポートを開放する
        ...
      状態: アクティブ
      
      To                         Action      From
      --                         ------      ----
      ...
      10022                      ALLOW       Anywhere
      ...
      10022 (v6)                 ALLOW       Anywhere (v6)
        ...
      
  3. (ネットワーク上の他のPC) 他のマシンから、ホストOS上の Container に ssh 接続する。
  4. 以下は、ホストOSの IPアドレスが 192.168.12.3 の場合の、ssh アクセスの様子である。

    (他のPCから) $ ssh -p 10022 guest@192.168.12.3 guest@192.168.12.3's password: ← パスワードを入力する。エコーバックされない。
    Welcome to Ubuntu 24.04.2 LTS (GNU/Linux 6.11.0-25-generic x86_64) ... guest $ whoami ← Container に guest 権限でアクセスできる guest guest $ exit logout
    Connection to 192.168.12.3 closed. $

Container が再起動すると sshd も自動起動されることを確認する

  1. (ホストOS上で) Container を停止する
  2. $ docker container stop ubuntu24-sshd   
    
  3. (ホストOS上で) Container が停止されたことを確認する
  4. $ docker container ls   
    CONTAINER ID   IMAGE           COMMAND            CREATED         STATUS         PORTS          NAMES
    
  5. (ホストOS上で) 停止中の Container を起動する
  6. $ docker start ubuntu24-sshd   
    
  7. (ホストOS上で) Container に ssh でアクセスして、sshd が自動的に起動していることを確認する。
  8. $ ssh -p 10022 guest@localhost ← ホストOSの 10022 番ポートに sshアクセスする guest@localhost's password: パスワードを入力する。エコーバックされない。
    Welcome to Ubuntu 24.04.2 LTS (GNU/Linux 6.11.0-25-generic x86_64) ... $ ← Container 内の guest 権限の対話環境が開始する