このページ内での表記:
「ホストOSの対話環境」は背景色を黄色(lightyellow)で表す。
「Conainer 内の root 権限の対話環境」は背景色を水色(azure)であらわす。
「Conainer 内の一般ユーザ権限の対話環境」は背景色を赤色(#ffeeee)であらわす。
「他のPCの対話環境」は紫色(#eeeeff)で表す。
[メモ]
これは、「大規模言語モデル入門」の8章のコードの8-4-simcse-faiss.ipynb を動かすための docker image である。
nVidia GPU (CUDA) に対応した Docker Image を探す
NVIDIA Optimized Frameworks: PyTorch Release Notes
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch/tags?version=25.09-py3
nVidia のサイトで pytorch に対応している container を探す。
本の出版が 2023年7月なので、その少し前にリリースされたバージョンを使ってみる。
PyTorch Release 23.02
Ubuntu 20.04 including Python 3.8
NVIDIA CUDA® 12.0.1
NVIDIA cuBLAS from CUDA 12.0.1
NVIDIA cuDNN 8.7.0.84
NVIDIA NCCL 2.16.5 (optimized for NVIDIA NVLink®)
NVIDIA RAPIDS™ 22.12.0
Apex
rdma-core 36.0
NVIDIA HPC-X 2.13
OpenMPI 4.1.4+
GDRCopy 2.3
TensorBoard 2.9.0
Nsight Compute 2022.4.1.6
Nsight Systems 2022.5.1
NVIDIA TensorRT™ 8.5.3
Torch-TensorRT 1.4.0dev0
NVIDIA DALI® 1.22.0
MAGMA 2.6.2
JupyterLab 2.3.2 including Jupyter-TensorBoard
Container Ubuntu CUDA PyTorch TensorRT
version Toolkit
--------- -------- ------- --------------- --------
23.02 20.04 12.0.1 1.14.0a0+44dac51 8.5.3
原本とする Docker Image の検討
検討事項
- 「大規模言語モデル」の第8章「文埋め込み」の 8-3-simcse-faiss.ipynb が動作する docker image を作成する。
- Faiss を動作させる必要があるので、Python 3.6 ~ 3.10 を使う必要がある。
- 23.07 (Python 3.10, PyTorch2.1.0a0+b5021ba) を使ってみたところ、8-3-simcse-faiss.ipynb の実行でエラーが多発した。
- 23.02 が PyTorch 1.x 系列の最新版。ただし、Python3.8 となる。
- Python 3.8 だと、Python 3.9 から導入された genereics (関数引数の型宣言における
list[str]
など)が使えない。
結論
23.02 を原本の Docker Image として用いる。
Pythonのバージョンが 3.8 である(3.9以上でない)ことから生じる「関数引数の generics 」問題に関しては、
ipynb の関数宣言を変更することで対応する。
vcr.io/nvidia/pytorch:23.07-py3
確認
以下の方法で起動した llm02 は、python 3.8 だが
torch.__version__ は
2.4.1+cu121
に更新されていた。
nVidia 公式の Docker Image (PyTorch) を用いて sshd が自動起動するカスタムイメージを作成する
方針
- NVIDIA PyTorch Container 23.07 をベースに用いる。
- sshd を自動起動する。
- Container の初回起動時に、SSH のポート番号を設定する。(SSHD_PORT 変数, デフォルト値: 22)
- Container の初回起動時に、新規ユーザを作成する。(デフォルト値: geust)
- Container の初回起動時にコマンドが与えられた場合は、フォアグラウンドで実行する。
- 生成する Docker Image 名は torch_llm
作成手順
- Windows11 上の Ubuntu-20.04 (WSL) を使って作業を進める。
Windows において WSL のファイルシステムは \\wsl$\Ubuntu-20.04\home\nitta にあることに注意すること。
Ubuntu-20.04 から、Windows11 のホームディレクトリは /mnt/c/User/nitta/ として見える。
- 作業用フォルダを作成する
$ cd /mnt/c/Users/nitta/Documents/docker
$ mkdir -p torch2302_sshd
$ cd torch2302_sshd
- 作業用フォルダの中に Dockerfile を作成する。
- Dockerfile中の パスワード の部分は、推測されにくい文字列に必ず変更すること。
- Dockerfile 中の Run 命令は docker image を build する時に実行されるので、変数を使っていても build時の値で固定される。
- Container の初回起動時に変数の値を変更したいコマンド(たとえば、SSHD_PORT )は、ENTRYPOINT で呼び出すシェルスクリプトの中で実行する。
- OpenSSH サーバをインストールする。
- supervisor サーバをインストールする。これはContainer を起動するたびに他のサーバを自動起動する役目を担う。
Dockerfile |
# ゲストOS: Ubuntu 20.04 LTS
#FROM pytorch:23.02-py3
FROM nvcr.io/nvidia/pytorch:23.07-py3
# Change Your Own UNAME, UID, GID, PASS
ENV UNAME=guest
ENV UID=3000
ENV GID=3000
ENV PASS=password
ENV SSHD_PORT=22
# 必要なパッケージのインストール
RUN apt-get update && \
DEBIAN_FRONTEND=noninteractive apt-get install -y \
sudo \
bash \
openssh-server \
supervisor \
&& rm -rf /var/lib/apt/lists/*
# SSH 設定: パスワード認証を有効化
RUN sed -i 's/#PasswordAuthentication yes/PasswordAuthentication yes/' /etc/ssh/sshd_config && \
sed -i "s/^#Port.*/Port ${SSHD_PORT}/" /etc/ssh/sshd_config && \
mkdir /var/run/sshd
# supervisord の設定ファイルを設置する (Daemon 起動用)
RUN mkdir -p /var/log/supervisor
COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf
# ポート開放
EXPOSE 22
# Copy Shell Script "entrypoint.sh"
COPY entrypoint.sh /entrypoint.sh
RUN chmod +x /entrypoint.sh
## Python
RUN pip install datasets # HuggingFace
RUN pip install transformers # HuggingFace
RUN pip install fugashi # 形態素解析 MeCab 用の Python Wrapper
RUN pip install ipadic unidic-lite # ipadic: 辞書データ, unidic-lite: 軽量版辞書
RUN pip install torchaudio
RUN pip install faiss-gpu
######
ENTRYPOINT ["/entrypoint.sh"]
CMD []
|
- 作業用フォルダの中に entrypoint.sh を作成する
- Contaienr の初回起動時に、SSHサーバの待ち受けポート番号を設定する。
- Container が起動されるたびに supervisor デーモンを起動する。SSHサーバの起動は supervisor が行う。
- 作業用フォルダの中に supervisord.conf を作成する
- supervisord の設定ファイルは /etc/supervisor/supervisord.conf にあり、追加の設定は /etc/supervisor/conf.d/*.conf で
記述するように設定する。
- sshd のログをとるために sshd に -e オプションをつけて起動して、sshdプロセスの標準出力にログを出力させる。
- 標準出力と標準エラー出力をそれぞれ /var/log/sshd_std{out,err}.log というファイルに記録する。
supervisord.conf |
# supervisord の設定ファイル
[supervisord]
nodaemon=true
# sshd を起動する
[program:sshd]
command=/usr/sbin/sshd -D -e
autostart=true
autorestart=true
stdout_logfile=/var/log/sshd_stdout.log
stderr_logfile=/var/log/sshd_stderr.log
|
- Image を build する。
$ docker build -t torch2302_sshd .
...
成功
- 生成した Image を確認する
$ docker image ls
REPOSITORY TAG IMAGE ID CREATED SIZE
torch2302_sshd latest a24fa0f50b65 38 seconds ago 27.3GB
...
- (注意) 上で用意した supervisod.conf は、Container の
/etc/supervisor/conf.d/supervisord.conf
というパスにコピーしている。
supervisord を起動するときに設定ファイルとして指定しているのは、標準でインストールされる
/etc/supervisor/supervisord.conf
である。このファイルには /etc/supervisor/conf.d/*.conf をインクルードするように記述されている。
[参考] 標準の /etc/supervisor/supervisord.conf |
授業で配布するプリントを参照して下さい。
|
Container 用の永続的なファイルシステムを作成する
コンテナに永続的なファイルシステムを提供するために、1777 のパーミッションでフォルダを作っておく。
skicky bit が on (1777) のフォルダには、
「誰でもファイルを作成できるが、作成した本人だけがファイルを変更したり消したりできる」
という特徴がある。
$ sudo mkdir -p /home/docker
← ディレクトリを作成する
$ sudo chmod 1777 /home/docker
← 誰でもファイルを作成できるが、作成した本人にしか消去できないモードに設定する
$ ls -ld /home/docker
← ディレクトリのsticky bit が on になっていることを確認する。
drwxrwxrwt 3 root root 4096 4月 26 15:47 /home/docker
Docker Contaner を生成する
Image ubuntu24_sshd
のデフォルトのユーザ情報とSSHサーバ情報を用いて、
新しい Container
ubuntu24-sshd
を生成する。
- Image から Container を生成して起動する。ユーザ情報はデフォルト値 (guest) を利用する。
Container のファイルシステム内にホストOSのディレクトリをマウントする。
Container を起動するたびに、sshd サーバが起動される。
$ docker run --name llm02 \
--shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 --gpus all \
--restart always \
-p 7072:22 -p 8082:8888 \
-v /home/docker/llm02:/mnt/hostos \
-it torch2302_sshd
起動オプション
- --name: 生成する Container の名前は llm02
- --restart always: docker が起動すると、このコンテナも自動起動する。
- -p: ホストOSのポートへのアクセスを、Container のポートにフォワーディングする。
ポート番号 |
ホストOS | ゲストOS |
7072 | 22 |
8082 | 8888 |
- -v: ホストOSの /home/docker/sshd が Container の /mnt/hostos としてマウントされる。
マウントポイント |
ホストOS | ゲストOS |
/home/docker/llm02 | /mnt/hostos |
- -it: 対話モード。ホストOSの端末をそのまま、Container 内の bash との対話環境として使う。
- 使用する Docker Image は torch2302_sshd
- Container を起動した対話環境が、そのまま Container 内で動作する bash との対話環境になる。root権限でloginした状態である。
First run. Setting up ... ← 生成された Container 内で entrypoint.sh が実行される
Creating group guest with GID=3000
Creating user guest with UID=3000, GID=3000
ownership of '/home/guest' retained as guest:guest
No command provided. Starting bash ...
root@af401d3cdf85:/# 2025-05-11 09:32:40,710 CRIT Supervisor is running as root. Privileges were not dropped because no user is specified in the config file. \
If you intend to run as root, you can set user=root in the config file to avoid this message.
2025-05-11 09:32:40,711 INFO supervisord started with pid 38
2025-05-11 09:32:41,715 INFO spawned: 'sshd' with pid 41
2025-05-11 09:32:42,717 INFO success: sshd entered RUNNING state, process has stayed up for > than 1 seconds (startsecs)
# ← Container 内の対話環境 (root権限の bash) が動く
- (重要) (Container 内で) 直ちに新規ユーザ guest のパスワードを変更する。
$ passwd guest
New password: ← 新しいパスワード を入力する。
Retype new password: ← もう一度新しいパスワード を入力する。
passwd: password updated successfully
- (Container 内で) ホストOSのマウントポイントを調べる。
# ls -ld /mnt/hostos
drwxr-xr-x 2 root root 4096 May 11 09:32 /mnt/hostos
- (Container 内で) 新規ユーザのホームディレクトリを調べる。
# ls -ld /home/guest
drwxr-x--- 2 guest guest 4096 May 11 09:32 /home/guest
# ls -la /home/guest
total 20
drwxr-x--- 2 guest guest 4096 May 11 09:32 .
drwxr-xr-x 1 root root 4096 May 11 09:32 ..
-rw-r--r-- 1 guest guest 220 Mar 31 2024 .bash_logout
-rw-r--r-- 1 guest guest 3771 Mar 31 2024 .bashrc
-rw-r--r-- 1 guest guest 807 Mar 31 2024 .profile
- (Container 内で) Control-P と Control-Q を順にタイプして、ホストOSの対話環境に戻る。
Container 内のシェルは動作したままとなる。
# ^p ^q ← Container の対話環境を抜ける
$ ← ホストOS 内の対話環境に戻る
- (ホストOS上) Container からマウントされているホストOSのディレクトリを調べる。
$ ls -ld /home/docker/sshd
drwxr-xr-x 2 root root 4096 5月 11 18:32 /home/docker/sshd
- (ホストOS上) docker 上の実行中の container の状態を調べる
$ docker container ls
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
af401d3cdf85 ubuntu24-sshd "/entrypoint.sh" 4 minutes ago Up 4 minutes 0.0.0.0:10022->22/tcp, [::]:10022->22/tcp ubuntu24-sshd
- (ホストOS上) docker 上のすべての(停止中を含む) container の状態を調べる
$ docker container ls -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
af401d3cdf85 ubuntu24-sshd "/entrypoint.sh" 4 minutes ago Up 4 minutes 0.0.0.0:10022->22/tcp, [::]:10022->22/tcp ubuntu24-sshd
- (ホストOS上) docker 上の Image の一覧を表示する。
-
$ docker image ls
REPOSITORY TAG IMAGE ID CREATED SIZE
ubuntu24-sshd latest 23164575e4d2 About an hour ago 222MB
ubuntu24-user latest 7b64f0b8bea1 3 hours ago 81.4MB
Docker Host から ssh を用いてContainer 内の対話環境にアクセスする
- ホストOSから、Continer の guest ユーザのアカウントに ssh でアクセスする。
- localhost からのアクセスはファイアウォールの干渉を受けないので、
ファイアウォールが動作していてもアクセス可能である。
- Container 作成時の -p 10022:22 オプションの指定により、
ホストOSの 10022 番ポートへのアクセスは Container の 22 番ポートにポートフォワーディングされる。
$
ssh -p 10022 guest@localhost
← ホストOSの 10022 番ポートに sshアクセスする
...
Are you sure you want to continue connecting (yes/no/[fingerprint])?
yes
...
guest@localhost's password:
← パスワードを入力する。エコーバックされない。Welcome to Ubuntu 24.04.2 LTS (GNU/Linux 6.11.0-25-generic x86_64)
...
$ ← Container 内の guest 権限の対話環境が開始する
- (Container 内の guest 権限で) ユーザ名を表示する。
$ whoami
guest
- (Container 内の guest 権限で) ホームディレクトリを表示する。
$ pwd
/home/guest
- (Container 内の guest 権限で) ホームディレクトリにあるファイルの一覧を表示する。
$ ls -la
total 24
drwxr-x--- 3 guest guest 4096 May 11 09:35 .
drwxr-xr-x 1 root root 4096 May 11 09:32 ..
-rw-r--r-- 1 guest guest 220 Mar 31 2024 .bash_logout
-rw-r--r-- 1 guest guest 3771 Mar 31 2024 .bashrc
drwx------ 2 guest guest 4096 May 11 09:35 .cache
-rw-r--r-- 1 guest guest 807 Mar 31 2024 .profile
- (Container 内の guest 権限で) ssh 経由の対話環境を終了する。
guest@af401d3cdf85:~$ exit

logout
Connection to localhost closed.
$
他のPCからネットワーク経由で Container 内の対話環境にアクセスする
- (ホストOS上) 外部のPCからネットワーク経由で Container にアクセスするためには、ホストOSの 10022 番ポートを開けておく必要がある。
Docker の公式文書では、「docker のポートフォワーディングは ufw のフィルタリングよりも前に行わるために、ufw の影響を受けない」
と記述されている (2025年春時点) が、これは現時点では間違いのようだ。
Containerに外部からアクセスするためには、ホストOSのポートを開けておく必要がある。
Ubuntu 24.04LTS の場合: ufw を用いる
- (ホストOS上) ファイアウォール ufw を有効化する。(既に有効化してあれば必要なし)
$ sudo apt update
← aptのデータベースを更新する
$ sudo apt install -y ufw
← ufw をインストールする。
$ sudo systemctl enable ufw
← ufw を有効化する
$ sudo systemctl restart ufw
← ufw を再起動する
- (ホストOS上) ホストOSの 10022 番ポートを開放する。
$ sudo ufw allow 10022
← 10022 番ポートを開放する
ルールを追加しました
ルールを追加しました (v6)
- (ホストOS上) ファイアウォールの状態を確認する。
$ sudo ufw status 10022
← 10022 番ポートを開放する
...
状態: アクティブ
To Action From
-- ------ ----
...
10022 ALLOW Anywhere
...
10022 (v6) ALLOW Anywhere (v6)
...
- (ネットワーク上の他のPC) 他のマシンから、ホストOS上の Container に ssh 接続する。
以下は、ホストOSの IPアドレスが 192.168.12.3 の場合の、ssh アクセスの様子である。
(他のPCから)
$
ssh -p 10022 guest@192.168.12.3
guest@192.168.12.3's password:
← パスワードを入力する。エコーバックされない。
Welcome to Ubuntu 24.04.2 LTS (GNU/Linux 6.11.0-25-generic x86_64)
...
guest $
whoami
← Container に
guest 権限でアクセスできる
guest
guest $
exit
logout
Connection to 192.168.12.3 closed.
$
Container が再起動すると sshd も自動起動されることを確認する
- (ホストOS上で) Container を停止する
$ docker container stop ubuntu24-sshd
- (ホストOS上で) Container が停止されたことを確認する
$ docker container ls
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
- (ホストOS上で) 停止中の Container を起動する
$ docker start ubuntu24-sshd
- (ホストOS上で) Container に ssh でアクセスして、sshd が自動的に起動していることを確認する。
$
ssh -p 10022 guest@localhost
← ホストOSの 10022 番ポートに sshアクセスする
guest@localhost's password:
← パスワードを入力する。エコーバックされない。Welcome to Ubuntu 24.04.2 LTS (GNU/Linux 6.11.0-25-generic x86_64)
...
$ ← Container 内の guest 権限の対話環境が開始する