なろう分析記録

『小説家になろう』をふくめ『ネット小説投稿サイト』を分析する。コード置き場,主にPython,javascript,たまに創作。

【Pythonサンプルコード】スクレイピングで文字列から数字だけ抽出したい時の簡単な方法を解説

文字列から数字だけを抽出したい

Pythonスクレイピングする時、抽出したい対象が「22,323アクセス」の様に、単純な数字だけではなく要らないテキストも一緒にくっついている場合があります。

そこで今回は簡単にこの様な文字列から数字だけ抜き出す方法をご紹介します。

f:id:karupoimou:20190708101301p:plain:w400
数字入りテキスト

続きを読む

なろうR-18作品の書籍化情報を全取得するPythonコード

ノク・ムン・ミッドの出版情報を全取得する

f:id:karupoimou:20190703014328p:plain:w400
取得例
前回のなろう作品の書籍化情報を全取得するPythonコードに引き続き、なろうR-18サイトの書籍化情報を一括取得するPythonコードを書きましたので公開します!

続きを読む

なろう作品の書籍化情報を全取得するPythonコード

書籍化情報をエクセルファイルに落とし込む

なろう作品の書籍化情報を全部まとめて1つのエクセルファイルに落とし込むPythonコードを書きましたので公開したいと思います。

f:id:karupoimou:20190704003849p:plain:w400
出力ファイルの例

2019-10-02 追記:
Pythonコードをなろう書報ページにリニューアルに対応しました。

続きを読む

はてなブログの『サイトマップが読み込まれない問題』調査の続報。『放置しておけばそのうち読み込まれる説』がおそらく正しいという結果に。

前回記事に書いた「サイトマップが読み込まれない問題」

karupoimou.hatenablog.com

前回の結論

現在のはてなブログにおける「中身の書いてあるサイトマップ」は「sitemap.xml?page=1」であった。

「sitemap.xml」には「sitemap.xml?page=1」へのリンクしか書かれていないので、「sitemap.xml」だけ読み込まれても意味がない。

しかし「sitemap.xml?page=1」を登録しても、なかなか取得されない。

なんで???

約一ヶ月後

ようやく取得成功していました。

f:id:karupoimou:20190616192051p:plain:w400
結果1

f:id:karupoimou:20190616192135p:plain:w400
結果2

最終的な結論

  • 『sitemap.xml?page=1は時間が経ったらそのうち読み込まれる説』はおそらく事実と言える。


※なお「sitemap.xml?page=1」はなかなか読み込まれないが、別ルートでクローラーがインデックス登録しているらしいので、読み込まれていなくても特に問題ないらしい。実際、読み込まれていなくても検索したらヒットする。
はてなブログのsitemap.xmlを送信しても「サイトマップを読み込めませんでした」となる - Search Console Community