[シェル芸]消費者庁が発表した悪質な海外ウェブサイト一覧からURLを抽出する


みなさんこんにちは。More Access! More Fun!を見て、消費者庁が「悪質な海外ウェブサイト一覧」 (PDF) なるものを公開しているのを知りました。他にも「国及び都道府県における処分事業者一覧(平成15年4月~平成26年10月1日時点)」 (PDF) なる資料で、詐欺会社や個人、違法ドラッグ販売業者などの実名が公開されています。

後者の資料はきっとエクセル方眼紙からPDFにしたのがわかりすぎるほどフォーマットが汚く、ちょっと遊ぶ気になれないのですが、海外ウェブサイトのほうはテキストにしてみたら案外面白かったです。curlでPDFを読もうかと思ったのですが、文字コード変換が面倒だったので、日和ってwgetでPDFをダウンロードしたので厳密にはシェル芸ではないのですが・・・

$ wget http://www.caa.go.jp/adjustments/pdf/141031adjustments_1.pdf ; pdftotext 141031adjustments_1.pdf -raw - | grep http:// | awk '{print $NF}'

これで海外悪質サイトの一覧を抽出することができました。あとはお好きに加工するなに何なりと遊べますね。fedora20の環境ですと、poppler poppler-utilsの2つのパッケージがあればpdfをテキストにできます。