Pythonでデータの正規性を確認するサンプルコード
データの正規性を確認する
様々な統計学的な検定において、解析対象データが正規性のあるもの(パラメトリック)か、非正規(ノンパラメトリック)なものでは、適切な検定方法がことなるため、最初にデータの正規性を確認する必要があります。
そこで今回は、簡単にデータの正規性を確認するためのサンプルコードをご紹介したいと思います。
データの正規性を確認するサンプルコード
import numpy as np from numpy.random import * from scipy import stats import pandas as pd import matplotlib.pyplot as plt ############ 検証データの準備 ############# #Pandasでエクセルからリストを持ってくる場合 df = pd.read_excel("data.xlsx")#読み込みxlsxファイル指定 excel_list = df["length"]#ここで列名を指定する #numpyで生成 normal = randn(1000)#正規分布に従う乱数 randam = rand(1000)#非正規なただの乱数 ############ 正規性確認の関数 ############# def check_norm(x): plt.hist(x, bins=100)#ヒストグラム表示 plt.pause(.01) stats.probplot(x, dist="norm", plot=plt)#QQプロット表示 plt.pause(.01) p=stats.shapiro(x)#シャピロウィルク検定 print(p) ###### 確認したいリスト名を引数に指定 ##### check_norm(excel_list) check_norm(normal) check_norm(randam)