2019-07-08

【Pythonサンプルコード】スクレイピングで文字列から数字だけ抽出したい時の簡単な方法を解説

プログラミング

文字列から数字だけを抽出したい

Pythonでスクレイピングする時、抽出したい対象が「22,323アクセス」の様に、単純な数字だけではなく要らないテキストも一緒にくっついている場合があります。

そこで今回は簡単にこの様な文字列から数字だけ抜き出す方法をご紹介します。

f:id:karupoimou:20190708101301p:plain:w400 — 数字入りテキスト

2019-07-04

【Python】tweepyを使ってツイートを全取得し、エクセルファイルに落とし込む

プログラミング

Pythonでツイートを全取得する

ここではPythonのtweepyプラグインを使ってツイートを全取得する方法をご紹介したいと思います。

f:id:karupoimou:20190708141319p:plain:w400 — 全ツイート取得例

2019-07-03

なろうR-18作品の書籍化情報を全取得するPythonコード

プログラミングネット小説サイト分析

ノク・ムン・ミッドの出版情報を全取得する

f:id:karupoimou:20190703014328p:plain:w400 — 取得例

前回のなろう作品の書籍化情報を全取得するPythonコードに引き続き、なろうR-18サイトの書籍化情報を一括取得するPythonコードを書きましたので公開します！

2019-07-02

なろう作品の書籍化情報を全取得するPythonコード

プログラミングネット小説サイト分析

書籍化情報をエクセルファイルに落とし込む

なろう作品の書籍化情報を全部まとめて１つのエクセルファイルに落とし込むPythonコードを書きましたので公開したいと思います。

f:id:karupoimou:20190704003849p:plain:w400 — 出力ファイルの例

2019-10-02 追記：
Pythonコードをなろう書報ページにリニューアルに対応しました。

2019-06-16

はてなブログの『サイトマップが読み込まれない問題』調査の続報。『放置しておけばそのうち読み込まれる説』がおそらく正しいという結果に。

はてなブログに関するもの

前回記事に書いた「サイトマップが読み込まれない問題」

karupoimou.hatenablog.com

前回の結論

現在のはてなブログにおける「中身の書いてあるサイトマップ」は「sitemap.xml?page=1」であった。

「sitemap.xml」には「sitemap.xml?page=1」へのリンクしか書かれていないので、「sitemap.xml」だけ読み込まれても意味がない。

しかし「sitemap.xml?page=1」を登録しても、なかなか取得されない。

なんで？？？

約一ヶ月後

ようやく取得成功していました。

f:id:karupoimou:20190616192051p:plain:w400 — 結果1

f:id:karupoimou:20190616192135p:plain:w400 — 結果2

最終的な結論

はてなブログにおける中身が書かれているサイトマップは「sitemap.xml?page=1」である。

『sitemap.xml?page=1は時間が経ったらそのうち読み込まれる説』はおそらく事実と言える。

※なお「sitemap.xml?page=1」はなかなか読み込まれないが、別ルートでクローラーがインデックス登録しているらしいので、読み込まれていなくても特に問題ないらしい。実際、読み込まれていなくても検索したらヒットする。
はてなブログのsitemap.xmlを送信しても「サイトマップを読み込めませんでした」となる - Search Console Community

なろう分析記録

『小説家になろう』をふくめ『ネット小説投稿サイト』を分析する。コード置き場,主にPython,javascript,たまに創作。

【Pythonサンプルコード】スクレイピングで文字列から数字だけ抽出したい時の簡単な方法を解説

文字列から数字だけを抽出したい

【Python】tweepyを使ってツイートを全取得し、エクセルファイルに落とし込む

Pythonでツイートを全取得する

なろうR-18作品の書籍化情報を全取得するPythonコード

ノク・ムン・ミッドの出版情報を全取得する

なろう作品の書籍化情報を全取得するPythonコード

書籍化情報をエクセルファイルに落とし込む

はてなブログの『サイトマップが読み込まれない問題』調査の続報。『放置しておけばそのうち読み込まれる説』がおそらく正しいという結果に。

前回記事に書いた「サイトマップが読み込まれない問題」

前回の結論

約一ヶ月後

ようやく取得成功していました。

最終的な結論