【15分】Pythonではじめてのwebスクレイピングを成功させる方法

Pythonではじめてのwebスクレイピングを15分で成功させる方法は?
beautiful soapというライブラリを使えば良いって本当?
HTMLのどこを引っ張ってくれば理想の情報が取れるかを知らないとダメって本当?
こんな疑問に答えます。

僕はWordPressのブログでは月2万PV、自作のiPhoneアプリを2つリリースしています。
そんな僕が解説していきます。

作業環境

Mac OSX Sierra
Python 3.6.4
PyCharm CE(無料版)2017.3.1

※記事内にプロモーションを含む場合があります

Pythonではじめてのwebスクレイピングを成功させる方法【beautiful soapを準備】

webスクレイピングはPythonでできるメインどころですね。

一番下の参考サイトは英語ですけど、ブラウザの翻訳などで読むと簡単ですね。
なのでこれらを試す中で、僕が気づいたことを補足で書いていきます。

beautiful soapのインストール

beautiful soapというライブラリをインストールします。

ライブラリ自体をのインストールする方法についてはこちらに書きました。
Pythonのモジュールをインストールする方法【初心者向け】

urllib2 モジュールも使用します。
urllib2モジュールが最新の情報では変更されているのに注意しましょう。

Pythonではじめてのwebスクレイピングを成功させる方法の実践【HTMLの基本の理解が大事】

とりあえずやってみます。
料理の達人になるには、玉ねぎのみじん切りだけやるのではない。
いきなりカレーを作った方が絶対にいいですね(的な思想)

株価のページをスクレイピング

株価のページを試しにスクレイピングします

HTMLの基本を理解

HTMLの基本を理解します。
これはHTMLのどこを引っ張ってくれば、理想の情報が取れるかを知らないとダメだからですね。

著作権やルールに注意

ウェブサイトの利用規約や著作権について、注意します。
最近はそもそも短時間内の大量アクセス禁止のところもあるので注意です。

インポート

インスタンス定義

引っ張ってくるHTMLの部分を指定

スクレイピングの結果がログに表示

これで成功しました。
Excel CSVにエクスポートして整理していのにも次回挑戦したいです

参考:

Beginner’s guide to Web Scraping in Python (using BeautifulSoup)
https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/

Learn to love web scraping with Python and BeautifulSoup
http://altitudelabs.com/blog/web-scraping-with-python-and-beautiful-soup/

How to scrape websites with Python and BeautifulSoup
https://medium.freecodecamp.org/how-to-scrape-websites-with-python-and-beautifulsoup-5946935d93fe

というわけで今回は以上です。

書籍中心にネットなど情報を探しましたが、基本的に日本語情報はパッと出てこないですね
基本英語で調べた方がいいと実感しました。

人気記事TweetDeckでおすすめの表示設定と使い方【Column(列)の並べ方】

-Python
-