Pythonではじめてのwebスクレイピングを１５分で成功させる方法

【１５分】Pythonではじめてのwebスクレイピングを成功させる方法

2017年12月27日

Pythonではじめてのwebスクレイピングを１５分で成功させる方法は？
beautiful soapというライブラリを使えば良いって本当？
HTMLのどこを引っ張ってくれば理想の情報が取れるかを知らないとダメって本当？
こんな疑問に答えます。

本記事の内容

僕はWordPressのブログでは月２万PV、自作のiPhoneアプリを２つリリースしています。
そんな僕が解説していきます。

Mac OSX Sierra
Python 3.6.4
PyCharm CE（無料版）2017.3.1

※記事内にプロモーションを含む場合があります

Pythonではじめてのwebスクレイピングを成功させる方法【beautiful soapを準備】

webスクレイピングはPythonでできるメインどころですね。

一番下の参考サイトは英語ですけど、ブラウザの翻訳などで読むと簡単ですね。
なのでこれらを試す中で、僕が気づいたことを補足で書いていきます。

beautiful soapというライブラリをインストールします。

ライブラリ自体をのインストールする方法についてはこちらに書きました。
Pythonのモジュールをインストールする方法【初心者向け】

urllib2 モジュールも使用します。
urllib2モジュールが最新の情報では変更されているのに注意しましょう。

とりあえずやってみます。
料理の達人になるには、玉ねぎのみじん切りだけやるのではない。
いきなりカレーを作った方が絶対にいいですね（的な思想）

株価のページを試しにスクレイピングします

HTMLの基本を理解します。
これはHTMLのどこを引っ張ってくれば、理想の情報が取れるかを知らないとダメだからですね。

ウェブサイトの利用規約や著作権について、注意します。
最近はそもそも短時間内の大量アクセス禁止のところもあるので注意です。

引っ張ってくるHTMLの部分を指定

これで成功しました。
Excel CSVにエクスポートして整理していのにも次回挑戦したいです

参考：

というわけで今回は以上です。

書籍中心にネットなど情報を探しましたが、基本的に日本語情報はパッと出てこないですね
基本英語で調べた方がいいと実感しました。