Python

e-Stat 政府統計の総合窓口を使ってPythonでヒストグラム作成

mintson
スポンサーリンク

本日の動画

統計データを可視化することで、データの特徴を直感的に把握することができます。
本記事では、政府統計調査のデータを使用し、Pythonでヒストグラムを作成する方法を解説します。

今回は「学校保健統計調査 / 令和6年度 参考」から得られる平均身長データをもとに、ヒストグラムを作成します。

使用するデータ

本記事では、政府統計ポータルサイト「e-Stat」に公開されている「学校保健統計調査 / 令和6年度 参考」のデータを利用します。

以下の情報をもとに、ヒストグラムを作成します。

  • 平均身長: 158.07cm
  • 標準偏差: 5.13cm
  • 標本サイズ: 600

統計用語の解説:

  • 平均 (Mean): データの中心的な値。
  • 標本 (Sample): 母集団全体から抽出したデータの集合。
  • 標準偏差 (Standard Deviation): データのばらつきを表す指標。数値が大きいほどデータの分散が大きい。

3. Pythonによるヒストグラムの作成

今回のコードはGithubでも公開しています。

3.1 インポートするライブラリ

import numpy as np
import matplotlib.pyplot as plt
  • numpy: 数値計算を行うためのライブラリ。正規分布に従うデータの生成に使用します。
  • matplotlib.pyplot: グラフ描画を行うライブラリ。ヒストグラムの作成に使用します。
# データ設定
mean_height = 158.07  # 平均身長
std_dev = 5.13        # 標準偏差
sample_size = 600     # 標本サイズ

# 正規分布に従うデータを生成
heights = np.random.normal(loc=mean_height, scale=std_dev, size=sample_size)

# ヒストグラムを描画
plt.figure(figsize=(9, 5))
plt.hist(heights, bins=30, color='skyblue', edgecolor='black')

# タイトルとラベル
plt.title('身長のヒストグラム')
plt.xlabel('身長 (cm)')
plt.ylabel('頻度')

# グリッドの追加
plt.grid()

# グラフを表示
plt.show()

コードの解説

  1. numpy.random.normal() を使って、平均 158.07cm、標準偏差 5.13cm の正規分布に従う 600個のデータを生成します。
  2. plt.hist() でヒストグラムを描画します。
    • binsヒストグラムの区間数。
    • color は棒の色を空色に設定。
    • edgecolor で棒の枠線を黒に設定。
  3. plt.title()plt.xlabel()plt.ylabel() でタイトルやラベルを設定します。
  4. plt.grid() でグリッド線を追加し、視認性を向上させます。
  5. plt.show() でヒストグラムを表示します。

実際に完成したヒストグラムは以下のようになります

最後に

実際のデータを用いた可視化は、統計の理解を深めるだけでなく、データ分析や機械学習の基礎にもなります。

ぜひPythonを活用して、さまざまな統計データの可視化に挑戦してみてください!

ABOUT ME
夜猫ミント
夜猫ミント
クリエイターです。
色んな創作活動をしています!
スポンサーリンク
記事URLをコピーしました