作成日: 2009-05-02 15:56:18 / last updated at: 2009-05-02 16:06:24
カテゴリ:
Python
日記/2009/05/01/Pythonで<img>タグのsrc属性の値だけを抽出 でBeautifulSoupを使った<img>のsrcタグ抜き出しが出来たので、肉付けして、HTML中の<img>タグと<a>タグでリンクされた画像をローカルにDLするスクリプトを組んでみた。
http://coderepos.org/share/browser/lang/python/image_collector
実際に使ってみた感覚としては、幾つか改良が必要と感じた。
- DL対象のドメイン名 or URLプレフィクスを複数指定できると良い。それ以外は無視する。
- 処理間隔をミリ秒単位で指定できるようにしたい。
- ソケットエラーが発生した場合のリトライ回数を指定したい。
- <img>のsrc属性と、<a>のhref属性のどちらを/両方を処理するかフラグで指定できるようにしたい。
- "-dry-run"機能が欲しい。
- 保存先ディレクトリをコマンドラインオプションで指定できるようにすると便利かも。
多分getoptを使うことになりそう。
折角勉強したPythonです。趣味と実益を兼ねた、良い練習問題になりそうです。
original url: https://www.glamenv-septzen.net/view/376