なろう分析記録

『小説家になろう』をふくめ『ネット小説投稿サイト』を分析する。コード置き場,主にPython,javascript,たまに創作。

なろうR-18作品の書籍化情報を全取得するPythonコード

ノク・ムン・ミッドの出版情報を全取得する

f:id:karupoimou:20190703014328p:plain:w400
取得例
前回のなろう作品の書籍化情報を全取得するPythonコードに引き続き、なろうR-18サイトの書籍化情報を一括取得するPythonコードを書きましたので公開します!

仕組み

なろうR-18サイトでは、出版作品紹介専用ページは用意されておらず、代わりにナイトランタン公式ブログで出版情報が告知されています。

f:id:karupoimou:20190703013742p:plain:w400
公式ブログ

なので今回はこの公式ブログから出版作品紹介情報をスクレイピングで取得する方法を取っています。

なおR-18の方でも書報掲載申請の方法はなろう本家と同様に自己申告制の様です。

f:id:karupoimou:20190703015953p:plain:w400
書報掲載

取得コード


Github:
gistbcf5a0a1b51c3072f131cfc03e5492a3

解説

今回もスクレイピングでテキストデータを取得しています。

ナイトランタン公式ブログの記事はhtmlタグできれいに揃えられているわけではないみたいなので、今回は

sp2=soup.find_all("div",class_="contentbody")
contentbody=sp2[num].text.split("\n")

の部分でテキストを1行ずつに分け、検索語を含む行を抽出する形を取っています。

取得したデータの考察について

ぱっと見た感じ、R-18サイトでは電子書籍の比率が高い様です。

f:id:karupoimou:20190703020945p:plain:w400
書籍・電子書籍の割合

この辺の考察についてはまた後日、

【禁断のなろうR-18分析】数字から見る「ノクターンノベルズ」「ムーンライトノベルズ」「ミッドナイトノベルズ」の現状と実態!

の方で紹介していきたいと思います。