Part 1：序論 — なぜPythonを使うのか・環境構築とは何か

Pythonは研究データ解析の事実上の標準言語です。無料で使える上に、世界中の研究者が共有するライブラリ群を活用できます。本講座では、Pythonの環境構築から、LLM（大規模言語モデル）を活用したコーディング、再現性を確保した論文公開までの流れを、初学者の方にもわかるように体系的に解説します。Part 1では、まず「Pythonとは何か」「環境構築とは何か」「なぜローカルで環境を作るのか」「なぜ再現性が大切なのか」という土台となる概念を整理します。

01 なぜPythonを使うのか

研究のデータ解析にはR、MATLAB、SAS など多くの選択肢があります。その中でPythonが選ばれる理由は次の3点です。

無料で誰でも使える — オープンソース（ソフトの中身が公開されていて、誰でも自由に使える形態）で、商用ライセンスや大学契約に依存しない。
研究分野での標準化が進んでいる — 機械学習・画像解析・統計・地理空間解析など、ほぼあらゆる研究分野でPython製のツールが提供されている。論文の再現コードもPythonで書かれていることが多い。
LLMが特に得意な言語 — Pythonはオープンソースのため、世界中のコード・解説・質問サイトの投稿が公開されている。ChatGPT・Claudeなどの大規模言語モデル（LLM）はそれらを大量に学習しているため、Pythonに関する情報を見つけやすく、コード生成精度が他の言語より高い傾向にある。

加えて、Pythonは「読みやすい」言語として設計されています。英語に近い構文でコードが書けるため、プログラミング初学者にとっても入り口として優れています。

02 「コードを書いて実行する」とは何か

Pythonでデータ解析をする流れは、おおまかに言えば次の通りです。

コードエディタに、Pythonの命令（コード）を書く
そのコードをPythonインタプリタという「実行エンジン」に渡す
インタプリタが命令を1行ずつ解釈して、計算したり、ファイルを読んだり、グラフを描いたりする
結果が画面に表示されたり、ファイルとして保存されたりする

Excel で言えば、セルに数式を書くと結果が出るのと似ています。違うのは、Pythonでは「数式」の代わりに「処理の手順そのもの」を書ける点です。たとえば「フォルダ内のすべてのCSVを読み込んで、平均を取って、グラフにして、画像として保存する」という一連の手順を、繰り返し再実行できる形で書いて残せます。

これが 再現性 につながります。Excelで手作業で行った処理は後から手順を思い出すのが難しいですが、Pythonコードはそれ自体が手順書になります。

03 コードエディタとは何か（VSCode）

コードエディタとは、コードを書くための専用アプリのことです。Wordやメモ帳でもコードは書けますが、コードエディタには次のような便利な機能があります。

コードの色分け（命令と文字列が違う色で表示されて読みやすい）
入力補完（途中まで打つと候補を表示してくれる）
エラー箇所のハイライト表示
ターミナル（コマンド入力欄）が同じ画面の中で開ける
拡張機能で機能追加ができる

本講座では VSCode（Visual Studio Code） を使います。VSCodeはMicrosoftが無料で配布しているコードエディタです。軽快に動作し、世界中のプログラマー・研究者が使っている事実上の標準ツールでもあります。コードの編集・仮想環境の操作・後述する .ipynb ファイルの実行など、Python関連の作業はすべてVSCodeの中で完結します。

VSCodeのインストール方法と最初の使い方は Part 2 で詳しく解説します。ここでは「コードを書いたり実行したりする中心アプリ」とイメージしておけばOKです。

04 ライブラリとは何か

Pythonの本体だけでは、できることは限られます。データを読んだり、機械学習をしたり、図を描いたりする機能は ライブラリ という形で別途用意されています。

ライブラリとは、誰かが作って公開してくれた「便利な機能の集まり」です。Pythonには、世界中の研究者・エンジニアが作ったライブラリが何十万個もあります。必要なものをインストールすれば、自分のコードから呼び出して使えます。たとえば機械学習をやりたいとき、回帰モデルや決定木のアルゴリズムを自分でゼロから書く必要はありません。scikit-learn という機械学習ライブラリをインストールすれば、わずか数行のコードで機械学習モデルを学習させ、予測を実行できます。

研究でよく使うライブラリの例

scikit-learn：機械学習（回帰・分類・クラスタリングなど）。本講座でも例として登場
pandas：表形式データ（ExcelやCSV）の読み込み・集計・整形
numpy：数値計算・行列演算
matplotlib / seaborn：グラフ・図表の描画
openpyxl：Excelファイルの読み書き
scipy：科学技術計算・統計

コード上では import sklearn のように1行書くだけで、そのライブラリの機能を全部使えるようになります。インストールは pip install scikit-learn というコマンド一つで済みます。

各ライブラリには バージョン があり（例：scikit-learn 1.4.0）、同じライブラリでもバージョンによって機能や挙動が変わります。これが次に説明する「環境構築」の話につながります。

05 環境構築とは何か

Pythonでコードを実行するには、PCに「Pythonの実行環境」を整える必要があります。これを 環境構築 と呼びます。流れは次の4ステップです。

プロジェクト用フォルダを作る（例：デスクトップに my_first_analysis）
そのフォルダの中に「仮想環境」と呼ばれる独立した小さな箱を作る（コマンド：python -m venv .venv）。これで .venv という箱がフォルダ内にできる。
仮想環境の中に、解析で使うライブラリを必要なバージョンでインストール（揃える）（例：pip install scikit-learn pandas）
仮想環境に「入る」（コマンド：.venv\Scripts\activate など）。入った状態でコードを実行すると、その箱の中のPythonとライブラリが使われる。コード内では import sklearn のように呼び出して使う。

なぜ「仮想環境」というステップを挟むかというと、プロジェクトごとに使うライブラリやバージョンが違うからです。仮想環境を使わずに直接PCにライブラリを入れると、別のプロジェクトと干渉してしまいます。仮想環境はプロジェクト専用の独立した小さな箱なので、ほかのプロジェクトに影響しません。

仮想環境のイメージ

PCの中に、プロジェクトごとに「専用の作業部屋」を1つずつ用意するイメージです。各部屋にはそのプロジェクト専用のPython本体とライブラリ一式が置いてあり、ほかの部屋の中身とは完全に独立しています。プロジェクトAの部屋では scikit-learn 1.4.0 を使い、プロジェクトBの部屋では scikit-learn 0.24 を使う、ということが同じPCの中で問題なく共存できます。技術用語では「サンドボックス（sandbox／隔離された作業空間）」とも呼ばれる考え方です。

重要なのは、Pythonのバージョンと、各ライブラリのバージョンの組み合わせが揃って初めてコードが正しく動く ということです。たとえば「scikit-learn 1.4」用に書かれたコードは、「scikit-learn 0.24」では動かないことがあります。同じく、Python 3.12 では使える機能が Python 3.8 では使えないこともあります。

「自分のPCでは動いたのに、他の人のPCでは動かない」「同じコードを実行したのに結果が違ってくる」というよくあるトラブルは、ほぼこのバージョンの違いが原因です。だからこそ「仮想環境」を作ってバージョンを管理することが重要になります。さらに、後述の「requirements.txt」で他人にも同じバージョンを揃えてもらう仕組みが大事になります。

06 なぜローカル環境で構築するのか

Pythonを使う方法には大きく2つあります。クラウド型（Google Colab など、ブラウザ上で動かす方式）と、ローカル型（自分のPCに環境を作る方式）です。本講座ではローカル型を採用します。理由は次のとおりです。

データの秘匿性が保てる — 未公開の研究データを外部サーバーにアップしなくて済む。
自分のPCの性能を活かせる — 解析速度はPCのスペック次第になる。手元のPCが高性能であれば、それを最大限使える。
フォルダ構成・ファイル管理が直感的 — 普段使うエクスプローラ（Windows）やFinder（Mac）と同じ感覚でファイルを扱える。
再現性パッケージとして固められる — 後述するように「フォルダごと共有」というシンプルな運用ができる。

逆に、自分のPCの性能が低い場合や、GPUを使った大規模な計算を行いたい場合は、Google Colab や大学のサーバーなどクラウド型のほうが向いている場面もあります。本講座のローカル型のスキルは、クラウド型を使う際にも活かせる基礎になります。

07 研究における再現性のメリット

近年、論文投稿時に 「生データと解析コードの公開」を求める雑誌が増えてきました。たとえば PLOS ONE（Data Availability Statement 必須）、Nature 系列誌（Code & Data Availability の記載要請）、eLife（オープンデータ方針）などです。Field Crops Research などの農学系の雑誌でも、データ・コードの共有を強く推奨する方針が広がりつつあります。

Pythonでローカルに環境を構築する方式では、この要請に対応するのが非常に楽になります。なぜなら、自分のPC上に次のような構成のフォルダを作っておけば、そのフォルダをそのままZenodoやGitHubにアップロードするだけで再現性が保てるからです。

再現性パッケージとしてのフォルダ構成（例）

project/
├── .venv/            # 仮想環境（バージョン情報を含む）
├── data/             # 生データ（Excel・CSVなど）
├── notebooks/    # 解析スクリプト（.ipynb）
├── results/       # 出力された図表
├── requirements.txt  # 環境再現用のライブラリ一覧
└── README.md      # 使い方の説明

このフォルダ一式があれば、第三者は「同じフォルダをダウンロード → 仮想環境を作って依存ライブラリをインストール → スクリプトを実行」の手順だけで、論文と同じ解析を再現できます。Excelの手作業では、この再現性を得るのは困難です。

→ この講座の全体像

Part 2 以降では、ここまで説明した概念を実際に手を動かして体験します。次のような流れで進みます。

Part 2
環境構築

→

Part 3
バイブコーディング

→

Part 4
再現性の確保

→

Part 5
公開

Part 2：環境構築 — VSCodeをインストールし、フォルダを作って仮想環境を構築。Hello Worldから基本統計量の出力までを体験。
Part 3：LLMでバイブコーディング — ChatGPTと対話をして、コードを書く。エラー対処や反復のコツも紹介。
Part 4：再現性の確保 — 構築した環境を第三者が再現できるようにする。
Part 5：論文公開時の運用 — フォルダ構造を整えて、Zenodo・GitHubにアップロードし、論文のAppendixにリンクを貼る。

所要時間の目安は、Part 2 〜 5 を通して3〜5時間です。1日で一気にやってもよいですし、Partごとに分けてもかまいません。準備ができたら、Part 2 へ進みましょう。

戻る ← シリーズ目次目次次へ — Part 2 環境構築 →