The Master of Swift App Coding

Swiftプログラミングでのアプリ作成方法やWordPressのテクニック解説

Pythonではじめてのwebスクレイピングを15分で成功させる方法

投稿日:2017年12月27日 更新日:

はじめに

今回は、Pythonではじめてのwebスクレイピングを15分で成功させる方法、というテーマで書いてきます。

前回までの記事でPythonの環境を準備できました。

次はとにかく実践しましょうってことで、webスクレイピングに挑戦しました。
webスクレイピングはPythonでできるメインどころですね。
僕がやりたかったことでもあります。

とりあえずやってみます。
料理の達人になるには、玉ねぎのみじん切りだけやるのではない。
いきなりカレーを作った方が絶対にいいですね
(的な思想)

作業環境

Mac OSX Sierra
Python 3.6.4
PyCharm CE(無料版)2017.3.1

参考

Beginner’s guide to Web Scraping in Python (using BeautifulSoup)
https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/

Learn to love web scraping with Python and BeautifulSoup
http://altitudelabs.com/blog/web-scraping-with-python-and-beautiful-soup/

How to scrape websites with Python and BeautifulSoup
https://medium.freecodecamp.org/how-to-scrape-websites-with-python-and-beautifulsoup-5946935d93fe

 

参考サイトのやり方を読む

正直、上記の参考サイトに全部載ってました。
英語ですけど、ブラウザの翻訳などで読むと、簡単ですね。

これらを試す中で、僕が気づいたことを補足で書いていきます。

 

beautiful soapのインストール

beautiful soapというライブラリをインストールします
ライブラリのインストールについてはこちらに書きました。

Pythonのモジュールをインストールする方法【初心者向け】

urllib2 モジュールも使用します。
urllib2モジュールが最新の情報では変更されているのに注意しましょう。

 

株価のページをスクレイピング

株価のページを試しにスクレイピングします

 

HTMLの基本を理解

HTMLの基本を理解します。

これはHTMLのどこを引っ張ってくれば、理想の情報が取れるかを知らないとダメだからですね。

 

著作権やルールに注意

ウェブサイトの利用規約や著作権について、注意します。

最近はそもそも短時間内の大量アクセス禁止のところもあるので注意です。

 

インポート

 

インスタンス定義

引っ張ってくるHTMLの部分を指定

 

スクレイピングの結果がログに表示

これで成功しました

Excel CSVにエクスポートして整理していのにも次回挑戦したいです

 

まとめ

今回は、Pythonではじめてのwebスクレイピングを15分で成功させる方法、というテーマで書いてきました。

書籍中心にネットなど情報を探しましたが、基本的に日本語情報はパッと出てこないですね
基本英語で調べた方がいいと実感しました。

Ad-336px-stinger8

Ad-336px-stinger8

-Python
-

Copyright© The Master of Swift App Coding , 2018 All Rights Reserved.