体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

スクレイピングするなら『ScraperWiki』使うといいよ

デジタル・IT
Yarukidenized:ヤルキデナイズド

今回はuasiさんのブログ『Yarukidenized:ヤルキデナイズド』からご寄稿いただきました。

スクレイピングするなら『ScraperWiki』使うといいよ

Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、『ScraperWiki』 *1 使うとキモチイイですよ。以上です。

そうではないみなさんには少々の説明が必要かと思いますので少々書きます。

スクレイピングするならScraperWiki使うといいよ

*1:ScraperWiki
http://scraperwiki.com/

『ScraperWiki』はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wikiと名が付いていますが、Wikiっぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念がWikiと共通しているのが由来みたいです。

『ScraperWiki』を使うとスクレーパを作るのがラクになります:

・Webベースのエディタでスクレーパを書き、その場で実行できる *2

スクレイピングするならScraperWiki使うといいよ

*2:「Edit(ruby)」usasi / Members of the House of Representatives of Japan『ScraperWiki』
http://scraperwiki.com/scrapers/members_of_the_house_of_representatives_of_japan/edit/

・PHP、PythonまたはRubyが使える(HTMLパーサなどのモジュールは各種インストール済み)
 - PythonにはlxmlやBeautifulSoup、NumPyにRPy *3
 - RubyにはNokogiriやHpricotやMechanize、PDF::Readerも *4
 - PHPは……詳しくないです *5
・1日に1回~半年に1回のスケジュールで定期的に実行してくれる
・スクレーパのソースコードは誰でも編集、フォークできる

*3:「Python batteries included in ScraperWiki」Documentation / 3rd party libraries『ScraperWiki』
http://scraperwiki.com/docs/python/python_libraries/

1 2 3次のページ
寄稿の記事一覧をみる

記者:

ガジェット通信はデジタルガジェット情報・ライフスタイル提案等を提供するウェブ媒体です。シリアスさを排除し、ジョークを交えながら肩の力を抜いて楽しんでいただけるやわらかニュースサイトを目指しています。 こちらのアカウントから記事の寄稿依頼をさせていただいております。

TwitterID: getnews_kiko

  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。
GetNews girl / GetNews boy

オスカー2018年晴れ着撮影会