なろう分析記録

『小説家になろう』をふくめ『ネット小説投稿サイト』を分析する。コード置き場,主にPython,javascript,たまに創作。

【Pythonサンプルコード】なろう全作品情報一括取得ファイルに『作者』に関する集計項目を追加するPythonコード

以前、全なろう作品の情報を全項目・全取得が入ったエクセルファイルを出力するPythonコードをご紹介しました。

 

karupoimou.hatenablog.com

 

今回は、そのコードで出力したエクセルファイルに対して「作者」に関する集計項目を新たに追加するPythonコードを紹介したいと思います。

続きを読む

メモ:レンタルサーバー上のMySQLにPythonでデータの出し入れ操作を行う

PythonMySQLを操作する

バリューサーバーのMySQLPythonで操作する方法についてのメモ

準備

pip

pip install PyMySQL

pythonMySQLを扱うためのモジュールはいくつか存在しますが、今回は「PyMySQL」を使用。

続きを読む

【Pythonサンプルコード】tweepyでURLが含まれるツイートを抽出する:expanded_url

ツイートに含まれるURLは省略されている

ツイッターAPIを扱う代表的なPythonモジュールとして「tweepy」があり、tweepyを使うことで簡単にツイートのデータを検索したり、ツイート内容を抽出したりできます。

これを利用することで「ツイートに含まれるURL」を集めることも簡単にできるかと思えば、残念ながらツイートに含まれるURLはこんな感じに短縮されておりそのままでは使えません。


f:id:karupoimou:20190906194530p:plain


そこで今回は、tweepyを使って「ツイートに含まれるURLをそのまま抽出する方法」をご紹介したいと思います。

続きを読む

Pythonでデータの正規性を確認するサンプルコード

データの正規性を確認する

様々な統計学的な検定において、解析対象データが正規性のあるもの(パラメトリック)か、非正規(ノンパラメトリック)なものでは、適切な検定方法がことなるため、最初にデータの正規性を確認する必要があります。
そこで今回は、簡単にデータの正規性を確認するためのサンプルコードをご紹介したいと思います。

f:id:karupoimou:20190831185529p:plain:w400
正規性の確認

データの正規性を確認するサンプルコード

import numpy as np 
from numpy.random import *
from scipy import stats
import pandas as pd
import matplotlib.pyplot as plt

############ 検証データの準備 #############

#Pandasでエクセルからリストを持ってくる場合
df = pd.read_excel("data.xlsx")#読み込みxlsxファイル指定
excel_list = df["length"]#ここで列名を指定する

#numpyで生成
normal = randn(1000)#正規分布に従う乱数
randam = rand(1000)#非正規なただの乱数

############ 正規性確認の関数 #############

def check_norm(x):
    plt.hist(x, bins=100)#ヒストグラム表示

    plt.pause(.01)

    stats.probplot(x, dist="norm", plot=plt)#QQプロット表示
    plt.pause(.01)

    p=stats.shapiro(x)#シャピロウィルク検定
    print(p)

###### 確認したいリスト名を引数に指定 #####

check_norm(excel_list)
check_norm(normal)
check_norm(randam)

出力例

f:id:karupoimou:20190831185650p:plain
正規性の無いデータ(サンプルサイズが大きすぎるデータ(>5000)なのでp値が低く出てしまっている)

f:id:karupoimou:20190831185723p:plain
正規性のあるデータ

f:id:karupoimou:20190831185529p:plain:w400
正規性の無いデータ

参考にしたページ

note.mu
www.ie-kau.net