なろうR-18作品の書籍化情報を全取得するPythonコード
ノク・ムン・ミッドの出版情報を全取得する
前回のなろう作品の書籍化情報を全取得するPythonコードに引き続き、なろうR-18サイトの書籍化情報を一括取得するPythonコードを書きましたので公開します!
仕組み
なろうR-18サイトでは、出版作品紹介専用ページは用意されておらず、代わりにナイトランタン公式ブログで出版情報が告知されています。
なので今回はこの公式ブログから出版作品紹介情報をスクレイピングで取得する方法を取っています。
なおR-18の方でも書報掲載申請の方法はなろう本家と同様に自己申告制の様です。
取得コード
Github:
gistbcf5a0a1b51c3072f131cfc03e5492a3
解説
今回もスクレイピングでテキストデータを取得しています。
ナイトランタン公式ブログの記事はhtmlタグできれいに揃えられているわけではないみたいなので、今回は
sp2=soup.find_all("div",class_="contentbody")
contentbody=sp2[num].text.split("\n")
の部分でテキストを1行ずつに分け、検索語を含む行を抽出する形を取っています。
取得したデータの考察について
ぱっと見た感じ、R-18サイトでは電子書籍の比率が高い様です。
この辺の考察についてはまた後日、
【禁断のなろうR-18分析】数字から見る「ノクターンノベルズ」「ムーンライトノベルズ」「ミッドナイトノベルズ」の現状と実態!
の方で紹介していきたいと思います。