自由制作第３回目 - Javaのコーヒを啜る

今日はPythonを使ってWeb上からデータを取得するスクレイピングという技術について勉強してみました。

スクレイピングでHTMLを加工する際には「BeautifulSoup」というライブラリを使用します。

今回は

をみながらお勉強したので、このブログで用意されたHTMLを使用してコードを書きました。

「print(soup.prettify())」を利用するとHTMLをきれいにインデントしてくれ、HTMLの構造を直感的に理解しやすくできます。

f:id:nora_robin:20181022110536p:plain

f:id:nora_robin:20181022110540p:plain

次はBeautifulSoupの利用に移っていきます。

上から順番に

f:id:nora_robin:20181022110544p:plain

続いてURL部分のみの取得です。

上から順番に

です。

そして３つ目の記述ですがこれは実際のブログサイトを「request」というライブラリを使ってWebページのデータを取得したものです。

requests.get(url)でurlのページの情報を取得し、textを実行するとHTMLの内容を取得することができまます。

f:id:nora_robin:20181022110550p:plain

残念ながら先程あげた記事は途中から有料らしく、ここまでの勉強しかできませんでしたが、他のサイトを利用してrequestライブラリなどについて調べたいです。

今回は色々調べていくうちにモジュールやライブラリに関する理解が深まりました。