スクレイピング

前回、Amazonで欲しい商品の最安値をワンライナーで取得しましたが、ロギングとメール通知を一撃でやっつけたいのでシェルスクリプト化しました。ソースはこちら。ライセンスはMITです。

…続きを読む

いつも私は地元北海道の水 [2CS] 黒松内 水彩の森(2L×6本)×2箱 をAmazonからまとめ買いしているのですが、今年の2月下旬時点で980円だったのが震災の影響で品薄なのか、1980円というとんでもないお値段に。。。

↑ 2016/04/23 17:00時点で売り切れ。。。Amazon以外の出品者は軒並み倍近い価格で売り出してる。。。

いずれ需要が落ち着けば価格も下がるのかとは思うのですが、ブラウザを開いて毎日Amazonの価格チェックをするのもかったるいものです。というわけで、いろんな出品者の価格をチェックして、自分で決めた価格より安くなった時だけメール通知するようにしました。

…続きを読む

皆様おはようございます。以前、天気予報をスクレイピング しましたが、htmlのパースはソースが書き換えられると非常に厄介なのでどうしたものかと思っていたところ、livedoorがWeather Hacks(気象データ配信サービス) を提供しているので、こちらを利用してお天気Hackすることにしました。

…続きを読む

メリークリスマス!よいこのみんなにサタンさんからプレゼントのワンライナーだよ!画像収集スクレイピングがこれではかどります。なお例示のURIは某所で教えてもらった佐野ひなこが殊の外かわいかったので採用しました。

佐野ひなこ
佐野ひなこ
URI=http://himasoku.com/archives/51933805.html ; DLBASEDIR=${HOME}/EROGAZOU ; DLTMPDIR=${HOME}/tmp ; SITEDIR=$(dirname ${URI} | sed -e "s/^http[s]*:\/\///g") ; DLDIR=$(basename ${URI} | sed -e "s/\.[[:alnum:]\?\=\&]*$//") ; ARCDIR=${DLBASEDIR}/${SITEDIR}/${DLDIR} ; mkdir -p ${DLTMPDIR} ; cd ${DLTMPDIR} ; rm -f ${DLTMPDIR}/*.[jJpPgG][pPnNiI][gGfF] ; curl -s ${URI} | egrep -i '([[:space:]]*h?[rs][er][fc]=\"https?:\/\/[[:alnum:]\.\/-_]*.[jpg][pni][gf])' | sed -e "s/<img[[:space:]]*src=\"/\n/g;s/\"/\n/g" | egrep -i '([jpg][pni][gf])$' | sed -e "s/^/curl -LO /g" | sh && mkdir -p ${ARCDIR} && cp -p ${DLTMPDIR}/*.[jJpPgG][pPnNiI][gGfF] ${ARCDIR} ; ls -l ${ARCDIR}/*

これは画像取得対象のWEBサイトから、curlでaタグまたはimgタグの画像を一撃ダウンロードします。wgetがインストールされていないマシンでもすぐに試すことができますね!

Hinako Sano
佐野ひなこ

画像は最初にホームディレクトリの下の tmp ディレクトリへ保存し、ここから最終保存先にコピーしていますが、これは私のPC環境  (ホームディレクトリ以下) がSSD、最終保存先のNASがSATAのHDDだからなのでこうしてるだけです。

皆さんよい夢を!