なろう分析記録

『小説家になろう』をふくめ『ネット小説投稿サイト』を分析する。コード置き場,主にPython,javascript,たまに創作。

【なろう年末”誤字掃除”】今年の誤字は今年のうちに修正!なろう作品の誤字を発見しやすくサポートするPythonコード!!

年末はなろう作品の『誤字』を掃除しよう!

今年の誤字は今年のうちに修正しましょう。

しかし誤字を修正するにしても、いちいちページを開いて見直して行くのは非効率ですし、誤字は見つけようとしてもなかなか見つかりません。

そこで「なろう作者ID」を入力するだけで誤字しやすい単語や用語を強調して示すためのpythonコードを作成しましたのご紹介したいと思います。

f:id:karupoimou:20191226174724p:plain:w400
サンプル

使い方

「誤字チェックリスト.xlsx」を.pyファイル(jupyterの場合は.ipynb)と同じディレクトリに置いてpythonコードを実行すればOKです。

f:id:karupoimou:20191226180734p:plain
サンプル
f:id:karupoimou:20191226170906p:plain
サンプル

「誤字チェックリスト.xlsx」をダウンロードする

誤字チェックリスト.xlsx - Google ドライブ

なお1シート目に「word」列があればxlsxをオリジナルに作成しても大丈夫です。

pip

pip install pandas
pip install tqdm
pip install requests
pip install beautifulsoup4

pythonコード


gistad1ca7ba0b94637f4b4c5d3afbd9cb5d

コードの説明

まず最初になろうAPIで作者の作品リストを取得し、次に1ページずつスクレイピングで本文を取得していきます。

そして単語リストに該当する部分があった場合、その部分を強調するhtmlタグを挿入し、最後に同じ実行ディレクトリ「作者ID.html」を出力します。

誤字チェックリストの追加

誤字チェックリスト.xlsxを編集することで、チェックしたい単語をカスタマイズできます。

仕様上の注意

すべてのページに対してPVが入ります。

取得間隔は最初の方に「interval=」で設定しています。

スタンドアローン

pythonをインストールしなくても使えるスタンドアローン版はコチラ↓
narou_typo_check.zip - Google ドライブ