【Python】e-Statの人口動態調査で人口ピラミッドを作成する方法
mintson
【公式】夜猫ミントのブログ
統計データを可視化することで、データの特徴を直感的に把握することができます。
本記事では、政府統計調査のデータを使用し、Pythonでヒストグラムを作成する方法を解説します。
今回は「学校保健統計調査 / 令和6年度 参考」から得られる平均身長データをもとに、ヒストグラムを作成します。
本記事では、政府統計ポータルサイト「e-Stat」に公開されている「学校保健統計調査 / 令和6年度 参考」のデータを利用します。
以下の情報をもとに、ヒストグラムを作成します。
統計用語の解説:
今回のコードはGithubでも公開しています。
import numpy as np
import matplotlib.pyplot as plt
numpy
: 数値計算を行うためのライブラリ。正規分布に従うデータの生成に使用します。matplotlib.pyplot
: グラフ描画を行うライブラリ。ヒストグラムの作成に使用します。# データ設定
mean_height = 158.07 # 平均身長
std_dev = 5.13 # 標準偏差
sample_size = 600 # 標本サイズ
# 正規分布に従うデータを生成
heights = np.random.normal(loc=mean_height, scale=std_dev, size=sample_size)
# ヒストグラムを描画
plt.figure(figsize=(9, 5))
plt.hist(heights, bins=30, color='skyblue', edgecolor='black')
# タイトルとラベル
plt.title('身長のヒストグラム')
plt.xlabel('身長 (cm)')
plt.ylabel('頻度')
# グリッドの追加
plt.grid()
# グラフを表示
plt.show()
numpy.random.normal()
を使って、平均 158.07cm、標準偏差 5.13cm の正規分布に従う 600個のデータを生成します。plt.hist()
でヒストグラムを描画します。
bins
ヒストグラムの区間数。color
は棒の色を空色に設定。edgecolor
で棒の枠線を黒に設定。plt.title()
、plt.xlabel()
、plt.ylabel()
でタイトルやラベルを設定します。plt.grid()
でグリッド線を追加し、視認性を向上させます。plt.show()
でヒストグラムを表示します。実際に完成したヒストグラムは以下のようになります
実際のデータを用いた可視化は、統計の理解を深めるだけでなく、データ分析や機械学習の基礎にもなります。
ぜひPythonを活用して、さまざまな統計データの可視化に挑戦してみてください!