Pythonがデータ分析の主流になった理由
データサイエンスの世界でPythonが圧倒的な地位を築いたのは、豊富なライブラリ群と書きやすい文法のおかげです。特にpandasとmatplotlibは、データ処理から可視化まで一貫して使える強力なツールです。
pandasの基本操作
pandasはデータをDataFrameという表形式で扱います。
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head()) # 先頭5行表示
print(df.describe()) # 統計サマリー
print(df.isnull().sum()) # 欠損値確認
よく使う操作
| 操作 | コード |
|---|---|
| 列選択 | df['列名'] |
| 条件フィルタ | df[df['年齢'] > 30] |
| グループ集計 | df.groupby('部門').mean() |
| 欠損値補完 | df.fillna(0) |
| ソート | df.sort_values('売上', ascending=False) |
matplotlibで可視化する
import matplotlib.pyplot as plt
# 折れ線グラフ
df['売上'].plot(figsize=(10, 5), title='月別売上推移')
plt.xlabel('月')
plt.ylabel('売上(万円)')
plt.tight_layout()
plt.savefig('sales.png')
plt.show()
seabornを組み合わせると、より洗練されたグラフが描けます。
import seaborn as sns
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('相関ヒートマップ')
plt.show()
実践的なデータ分析の流れ
- データ収集:CSV・Excel・DB・API
- データクレンジング:欠損値・外れ値の処理
- 探索的分析(EDA):分布・相関の把握
- 可視化:グラフで傾向を明確化
- モデル構築:予測・分類(scikit-learn連携)
学習ロードマップ
| ステップ | 内容 | 期間目安 |
|---|---|---|
| 入門 | Python基本文法 | 2週間 |
| 中級 | pandas・numpy | 1ヶ月 |
| 上級 | 統計・ML連携 | 2〜3ヶ月 |
データ分析スキルはAI活用の土台となります。まずはKaggleの入門コンペに挑戦するのがおすすめです。






エムズガーデンが一番まし。