import sys import json import requests from bs4 import BeautifulSoup import codecs def scraping(url, output_name): # get a HTML response response = requests.get(url) html = response.text.encode(response.encoding) # prevent encoding errors # parse the response soup = BeautifulSoup(html, "lxml") # extract ## title header = soup.find("head") title = header.find("title").text ## description descriptio
Python3でSeleniumのChromeドライバを利用したBeautifulSoupの作成例。 JavaScriptによる動的コンテンツのパースも可能。 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options def create_soup(url, timeout=30): """ urlのコンテンツからBeautifulSoupを作成する。 @return {BeautifulSoup} """ options = Options() options.add_argument('--headless') options.add_argument('--disable-gpu') driver = webdri
いろいろなsoupの取得方法メモ。 google画像検索とか、javascriptが有効なサイトだとselenium使わないといけないっぽい。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup def get_soup_uulib2(url): import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] page = opener.open(url) soup = BeautifulSoup(page,"lxml") return soup def get_soup_urequests(url): import requests s = requests.Session() r = s.get(url
最近、Certified ScrumMaster(認定スクラムマスター)を無事GETした私ですこんばんは!*1 今日はこちらの勉強会(もくもく会)でいい感じのモノが出来たので、ちょいと紹介したいと思います。 mokupy.connpass.com スターティングメンバー スタメン表っぽくポジションを入れましたが、特に意味はありません*2 (2B)このエントリーの対象読者 (LF)背景 (RF)Beautifulsoupでスクレイピング (3B)geopyでらくらくGeocoding (1B)bottle + Google Map APIでサクッと地図アプリを作る (CF)完成! (C)今後の展望 (SS)【Appendix】Pythonエンジニア養成読本について (P)【Appendix】Pythonもくもく会 (2B)このエントリーの対象読者 以下の人にオススメします。 Pythonでス
データアナリティクス事業本部の貞松です。 Amazon QuickSightでは、地理空間グラフ(地図上にプロットした円の色や大きさにより、地理的な位置関係とそれにまつわる分類や数値を視覚化したもの)を利用することができます。自動ジオコーディング機能(地名や住所から自動で緯度・経度を取得してくれる機能)については、米国のみの対応となっていますが、データセットにあらかじめ緯度・経度の情報を含めておけば日本の地図に対しても地理空間グラフを使用できます。 AWSドキュメント - Amazon QuickSightユーザーガイド - 地理空間グラフ (マップ) 本記事では、この地理空間グラフを使った一例として、庶民の味方、大黒天物産の店舗ダッシュボードを作成します。 大黒天物産とは 大黒天物産株式会社は岡山県倉敷市に本社を置くディスカウントストア(ラ・ムー、ディオなど)の運営企業です。 プライベー
はじめに JoeSandboxというマルウェアを解析してレポートを出力してくれるサイトがあります。 https://www.joesandbox.com JoeSandboxには色々バージョンがありますが、Cloud Basicというバージョンであれば無料でマルウェア解析ができます。 さらにCloud Basicで解析されたレポートは公開されますので、他の人の分析結果レポートを見ることもできます。 今回はマルウェアの分析結果レポートをBeautifulSoup+PythonでWebスクレイピングし、プロセス情報を取得してみたいと思います。 ちなみにCloud Basic以外のバージョンですとWeb APIが利用できますが、Cloud Basicでは利用できないようです。 JoeSandboxについて 分析画面です。この画面でマルウェアを指定し、色々なオプションなどを設定したのちに分析を行い
Pythonを使ったデータクローリング・スクレイピングは、エンジニア・非エンジニアを問わず非常に人気や需要のある分野です。しかし、いざデータクローリングしようとすると、複数ライブラリのAPIや、ライブラリそれぞれの関連性に混乱してしまうことがよくあります。 昨年公開された「Requests-HTML」はそういった問題を解決する「オールインワンでデータクローリングが行える」ライブラリです。ユーザーは「Requests-HTML」のAPIのみを学習するだけで、サイトへのリクエスト、HTMLのパース、要素の取得を行うことができます。またHeadless Chromeを使うこともできます。 このブログでは「Requests-HTML」が生まれた背景と使い方、そして興味深いポイントについて書きます。 なぜ「Requests-HTML」が必要だったか データクローリング・スクレイピングの人気の高まり
スノーボードを少しでも安く買いたかった そこで目を付けたのがヤフオクで開催されている1円スタートのスノボである 終了直前までの価格をみていると結構お得に買える!と、思っていた 少しの間、1円商品のスタートを見ていると入札されている価格帯が同じだということに気づいた だとすれば自分もその価格帯付近で入札すれば買えるんじゃないかと思い、価格帯を調べることにした 最近スクレイピングではPythonを使う NodeJSだと非同期を少しでも考えるのが嫌なので、できるだけ使いたくない 実行環境はColaboratoryを用いた スクレイピングして表形式で出力したいだけだからだ 簡単にPythonの実行環境にできるのでスゴイおすすめである colab.research.google.com スクレイピングには定番のBeautiful Soupを使って集計するコードを書き始め、できた結果が下記のようなコー
本編をご覧のみなさんこんにちは。本編をご覧になっていないみなさんもこんにちは。 こちらの記事ではスクレイピング編をお送り致します。 言語は慣れたPythonを選択しています。 映画レビューサイトは、利用規約やデータ表示の構造から、みんなのシネマレビューさんにお世話になることにしました。ありがとうございます。情報量も多くて素晴らしいサイトですね。 では、早速やっていきましょう。まずは必要なライブラリをインポートしておきます。どれも一般的なものですね。 #必要なライブラリをインポート from bs4 import BeautifulSoup import requests import pandas as pd from pandas import Series, DataFrame import time みんなのシネマレビューさんでは、映画情報(制作年、監督、キャストなど)、レビュアーリ
こんにちは、Shoです。 今年の6月にミシガン大学ロスを卒業し、晴れてMBAホルダーとなりました。12月までは大学に残って機械学習の研究をしているのですが、いよいよ帰国の時が近づいてまいりました。 来年の頭から東京に戻るので、どのへんに住もうかなぁと思案しておるところです。 しかし住居選びというのは考えなければいけない要因が多くて大変ですね。なるべくお買い得な物件を選びたいところですが、どの区がいいのか、広さはどのくらいの部屋にしようか、2LDKと3Kだとどっちがいいの?とか、これは人間の頭で考える案件ではありませんね。コンピューターができることは全部自動化してしまいたい。 ということで、やってみました。 機械学習を使って東京23区のお買い得賃貸物件を探してみた 物件情報サイトは色々ありますが、今回はSuumoさんを選択。著作権に関しては、利用規約に以下のように書いてあります。 「ユーザー
はじめに 本記事では、Python, BeautifulSoup4, requestsをつかってFilmarksから特定の映画のレビューをすべて取得する方法について説明します。 Filmarksは「国内最大級の映画レビューサービス」です。現時点(2018年8月23日22時頃)で5314万3638件のレビューが掲載されています。 よほどマイナーか人気のない映画でない限りレビューが投稿されている、と思います。 映画レビューサイトはFilmarks以外にもYahoo!映画や映画.com、みんなのシネマレビューなどがあります。 ほかにも映画レビューサイトはあるのになぜFilmarksからレビューを取得するのかというとまず「HTMLの構造が単純でスクレイピングしやすい」というのがあります。複雑なHTML構造をしていないため、スクレイピング初心者の方やPython初心者の方がスクレイピングを学ぶ入り口
2016-12-09追記 「Pythonクローリング&スクレイピング」という本を書きました! Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る これはクローラー/スクレイピング Advent Calendar 2014の7日目の記事です。 Pythonでクローリング・スクレイピングするにあたって、いろいろなライブラリがあるので一覧でまとめてみます。 以下の4つのカテゴリにわけて紹介します。 Webページを取得する Webページからデータを抜き出す Webページの自動操作 総合的なフレームワーク なんでこれが載ってないの?この説明はおかしい!などありましたらお気軽にお知らせください。なお、この記事はいろいろなライブラリを紹介することを目
はてなブックマーク使ってますか?ハードなはてなブックマーカーであるならば、殆どはお気に入りページから最新情報をチェックしていると思うのですが、500人近くfollowしていると、どのユーザーがアクティヴではなくなったかメンテナンスできなくなってきます。 普通にスクレイピングで最後にブックマークした日付を調べるのがいいと思うのですが、しかし、最近のはてなブックマークはJavaScriptでHTMLを組み立てているので、そのままHTMLを取ってきても仕方がない。どうしたものか……と思ってGoogle ChromeのNetworkで通信履歴を見ていたら、謎のURLを見つけました。試しに自分のブックマークで試してみます。 このHTMLがどういう用途で使われているかは謎ですが、とりあえずJavaScriptを使わずに吐き出されたHTMLなので、これを使えば最終日にブックマークした日がわかる!ヒャッホ
PythonでCUIベースのTwitterクライアントを書いてみた。 の続き。 前回twitter.pyでimportしてるにも関わらず、自分でfriends_timelineとかBeautifuleSoupでパースしてましたw。 なんでtwitter.pyで提供されてる機能があったらそれに置き換えるようにしました。 機能はだいぶ増えたけどソースの長さはほとんど変わってないですよね。 あと前までログインしたあとにAPI認証くらってましたが、今回は初回ログイン時のユーザ&パスワードで自動にログインするようにしました。(といってもAPI使ってるだけだけど) #暇があればいろいろ改造していく予定です。 実装機能 発言投稿 (mode: i) 最新タイムラインの取得 (mode: g)自分のタイムラインの取得 (mode: me)特定ユーザのタイムラインの取得 (mode: u)@リプライの取得
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く