2019-07-08 【Pythonサンプルコード】スクレイピングで文字列から数字だけ抽出したい時の簡単な方法を解説 プログラミング 文字列から数字だけを抽出したい Pythonでスクレイピングする時、抽出したい対象が「22,323アクセス」の様に、単純な数字だけではなく要らないテキストも一緒にくっついている場合があります。そこで今回は簡単にこの様な文字列から数字だけ抜き出す方法をご紹介します。数字入りテキスト 続きを読む
2019-07-04 【Python】tweepyを使ってツイートを全取得し、エクセルファイルに落とし込む プログラミング Pythonでツイートを全取得する ここではPythonのtweepyプラグインを使ってツイートを全取得する方法をご紹介したいと思います。全ツイート取得例 続きを読む
2019-07-03 なろうR-18作品の書籍化情報を全取得するPythonコード プログラミング ネット小説サイト分析 ノク・ムン・ミッドの出版情報を全取得する 取得例前回のなろう作品の書籍化情報を全取得するPythonコードに引き続き、なろうR-18サイトの書籍化情報を一括取得するPythonコードを書きましたので公開します! 続きを読む
2019-07-02 なろう作品の書籍化情報を全取得するPythonコード プログラミング ネット小説サイト分析 書籍化情報をエクセルファイルに落とし込む なろう作品の書籍化情報を全部まとめて1つのエクセルファイルに落とし込むPythonコードを書きましたので公開したいと思います。出力ファイルの例2019-10-02 追記: Pythonコードをなろう書報ページにリニューアルに対応しました。 続きを読む
2019-06-16 はてなブログの『サイトマップが読み込まれない問題』調査の続報。『放置しておけばそのうち読み込まれる説』がおそらく正しいという結果に。 はてなブログに関するもの 前回記事に書いた「サイトマップが読み込まれない問題」 karupoimou.hatenablog.com 前回の結論 現在のはてなブログにおける「中身の書いてあるサイトマップ」は「sitemap.xml?page=1」であった。「sitemap.xml」には「sitemap.xml?page=1」へのリンクしか書かれていないので、「sitemap.xml」だけ読み込まれても意味がない。しかし「sitemap.xml?page=1」を登録しても、なかなか取得されない。なんで??? 約一ヶ月後 ようやく取得成功していました。 結果1結果2 最終的な結論 はてなブログにおける中身が書かれているサイトマップは「sitemap.xml?page=1」である。 『sitemap.xml?page=1は時間が経ったらそのうち読み込まれる説』はおそらく事実と言える。 ※なお「sitemap.xml?page=1」はなかなか読み込まれないが、別ルートでクローラーがインデックス登録しているらしいので、読み込まれていなくても特に問題ないらしい。実際、読み込まれていなくても検索したらヒットする。 はてなブログのsitemap.xmlを送信しても「サイトマップを読み込めませんでした」となる - Search Console Community