いっそ条件ごとにSingularityコンテナ立ち上げてJupyter Notebookをコマンド実行しちゃいましょう

はじめに

こんにちは。
岩津です。

弊社では福利厚生の一環…というわけではないと思いますが、NvidiaのGPUワークステーションを社内から技術部門のみならず誰でも利用することができます(申請さえすれば)。

どういうものかというと、こういうものです。↓

過去ブログ参照:DGX-STATIONを導入しました!

環境が用意されているというのは非常に大事なところではあるものの”誰でも触れる”といっても現実的にはハードルが高いところもあったりするので、広く一般というのはなかなか難しいところですね。

そんな状況を改善すべく今回は前回の続きで『GPUワークステーションをもっと活用する』ことについて書きたいと思います。


今回の前提

  1. Singularityの導入ができている
  2. Jupyter Notebookが実行可能なSingularityコンテナイメージがある
  3. Docker環境はあるが利用ユーザーにスーパーユーザー権限は渡したくない
  4. Dockerのバージョンが18.09(事情により19系に上げられない)

対象とする読者

  • GPUワークステーションを使ってなにかやりたい弊社社員
  • Jupyter Notebookを使っているがコマンドライクに実行して帰りたい人
  • 共用のNotebook環境に限界を感じている人

流れ

  • 弊社Jupyter Notebookの推奨環境について
  • Singularityを利用したJupyter Notebookの起動
  • Notebookをコンテナごとコマンドで実行する

かなり読者ターゲットが絞られ環境依存が強いですね。

Singularityを利用されることを検討されている方には少しでも参考になる部分があればいいなと思っております。一つご容赦ください。

弊社Jupyter Notebook推奨環境について

まずは弊社社内で利用開放しているJupyter Notebookの環境について説明します。
社内の一般的な利用者にはまずこれを利用してもらう推奨環境となります。

ワークステーションではJupyterHubを利用し、利用者には各個人用コンテナ上のNotebookにブラウザでアクセスしてもらっています。

にアクセス後、自分のIDとパスワードを入力すると自分の用のJupyter Notebookが利用できます。

ログイン後

ワークステーション上の自分のホームディレクトリがマウントされた状態ですので、必要なデータやプログラムは自分のディスク領域に保存することができます。

  • JupyterHub + Docker Engine

を利用しているので構成としては以下のようになりました。

ネットワーク

この構成の利点は

  • 各ユーザーのデータやプログラムを共用ディスクに置かなくて良いので、プライバシーが守られる
  • 人のファイルを壊してしまう恐れがない
  • Jupyter Notebook環境が不調になってもユーザー単位でコンテナの再起動ができる
  • 共通のコンテナイメージを利用すればメンテコストが低減できる
  • JupyterHubがユーザーがログインしたときにコンテナを立ち上げてくれる

などがあります。

対して不満としては

  • コンテナイメージは共有のものを利用しているため、新しいライブラリを含んだイメージを作成した場合、JupyterHubの再起動を必要とする運用となっている
  • JupyterHubの再起動を行う場合、全コンテナを削除する運用となっている

というものがあります。

回避策はいくつかあると思うのですがコンテナイメージの管理を煩雑にしたくないのもあり今は新しいイメージができるたびにJupyterHub、Jupyter Notebookの環境を再起動しています。

当然利用者からは 「データ処理中なので再起動勘弁して」 などの声が出てくるので再起動するのはタイミングを見計らってとなってしまいます。

ちょっと嫌ですね。

Singularityを利用したJupyter Notebookの起動

そんな利用者には前回のやり方で、ローカルPCではなく今度はGPUワークステーション上でSingularityを利用してJupyter Notebookを起動してもらうようにしました。

構成は以下となりました。

Singularity

DockerイメージからSingularity用のコンテナイメージに変換したものを用意し、Singularityの起動は各ユーザーに以下のようにコマンドから起動してもらいます。

起動コマンド
※コンテナイメージは各自必要なライブラリが入ったものを利用

Notebook起動

少なくともこれで他の人のJupyter環境から切り離して実行できました。
これでCさんのタスク状況によらずJupyter環境の更新ができます。(逆もまた然り)

Notebookをコンテナごとコマンドで実行する

Jupyter Notebookを独立した環境で稼働させることができると、そこで様々な試行錯誤がやりすくなります。

ですが、データに対してどのような処理をするべきか、利用するモデルはどうするかなどひとしきりトライして方針がある程度きまったとしても、異なるデータを扱ったときに期待する結果が得られるかはまた別の話だったりします。

となると次に欲しくなってくるのは以下のような要求です。

  • データの条件(対象・範囲など)を手軽に変えて何度でも実行できるようにしたい
  • 条件を変えた処理を複数並行で実施したい
  • できれば環境としてはそれぞれ独立させておきたい

今回は上記を満たすため『コマンドからSingularityを起動する際のパラメータに処理対象のファイル(ipynbファイル)を指定し、コンテナ中のNotebookでコマンド処理させる』という手法をとりました。

私)「いっそ条件ごとにSingularityコンテナ立ち上げてJupyter Notebookをコマンド実行しちゃいましょう」

以下のような流れとなります。

簡単なNotebookを作成


※HelloWorld.ipynbとして保存

Singularity起動時に”jupyter nbconvert”を実行

Notebookのコマンド実行にはnbconvertを利用し、Singularityに以下のように渡しました。
実行するHelloWorld.ipynbはSingularityがマウントする自分のホームディレクトリ配下に置いています。

“Hello World!”が出力されているのを確認。

画像を出力してみる

次に実行結果として画像などを生成するケースをやってみます。
弊社の利用しているイメージにはmatplotlib basemapが予めインストールされているので、地図画像を表示してみました。

参考元

https://matplotlib.org/basemap/users/geography.html

実際のコード

実行対象

実行結果

生成された画像

etopo_relief.jpg
bluemarble.jpg
shaded_relief.jpg

生成された画像が確認できました。

まとめ

  • Jupyter NotebookをDockerで運用しているなら、Singularityでも移行できる
  • Singularityを利用してNotebookをコマンドライクに実行できた
  • コマンド実行できるので条件の異なる処理を手軽に実行できる
  • 【社内連絡】推奨環境で慣れたらSingularity使って独自コンテナイメージの利用できます。どんどん使ってください。