スーパーのWEBチラシ更新をスクレイピングで確認したい


こんにちは。主夫になりたい @nullpopopo です。最近ちょっとどうしたものかと悩んでいることがありまして。。。近所のスーパーのWEBページをはてなアンテナに登録して巡回しているんですけど、WEBページのテキスト更新は検知してくれるんですが、画像だけ差し替えられても検知してくれないんですよね。 (´・ω・`)

※ こちらでスクレイピングを実装しました!

例えばこんなサイト・・・

summit_20150415_000

テキストとしてコピペできる箇所は、先週から何も変わっていません。で、どこが更新されているかと言うと・・・

summit_20150415_001

ココ。これじゃあはてなも更新検知してくれないわけですよ。(´・ω・`)

じゃあこの画像のタイムスタンプを取得してみると・・・

$ URI="http://www.summitstore.co.jp/tirashi/img/sale_title.jpg" ; date -d @$(date +"%s" -d "$(curl -sv -o /dev/null ${URI} 2>&1 > /dev/null | grep Last-Modified | awk '{print $3,$5,$4,$7,$8,$6}')") +"%Y/%m/%d %T"
2015/04/14 21:12:39

ページ本体のタイムスタンプは・・・

$ URI="http://www.summitstore.co.jp/tirashi/doc/435a.html?1" ; date -d @$(date +"%s" -d "$(curl -sv -o /dev/null ${URI} 2>&1 > /dev/null | grep Last-Modified | awk '{print $3,$5,$4,$7,$8,$6}')") +"%Y/%m/%d %T"
2015/04/14 21:15:32

これ比べてもしゃあないしなあ。。。リンクされているチラシも、荏原4丁目店西小山店でまったく同じものだし、しかもチラシのファイル名が更新日になっているっぽい。。。しばらく観察して規則性を見つけてみますかねー。。。はぁ。。。

[amazonjs asin="4863919948" locale="JP" title="スーパーマーケット最強バイブル (晋遊舎ムック)"]