Javaのコーヒを啜る

ITを学ぶオタクの日記

自由制作 第3回目

今日はPythonを使ってWeb上からデータを取得するスクレイピングという技術について勉強してみました。

スクレイピングでHTMLを加工する際には「BeautifulSoup」というライブラリを使用します。

今回は

note.mu

をみながらお勉強したので、このブログで用意されたHTMLを使用してコードを書きました。

「print(soup.prettify())」を利用するとHTMLをきれいにインデントしてくれ、HTMLの構造を直感的に理解しやすくできます。

f:id:nora_robin:20181022110536p:plain

f:id:nora_robin:20181022110540p:plain

 

次はBeautifulSoupの利用に移っていきます。

上から順番に

  1. titleの内容 & titleのタグを除いた中身の出力
  2. aタグの出力
  3. すべてのaタグの出力
  4. for文を利用し、HTMLを含んだaタグの出力 & HTMLを含まないaタグの出力

f:id:nora_robin:20181022110544p:plain

 

続いてURL部分のみの取得です。

上から順番に

  1. soup.a.get("href")を使うとURLを取得する
  2. すべてのaタグ内のURLを取得する

です。

そして3つ目の記述ですがこれは実際のブログサイトを「request」というライブラリを使ってWebページのデータを取得したものです。

requests.get(url)でurlのページの情報を取得し、textを実行するとHTMLの内容を取得することができまます。

f:id:nora_robin:20181022110550p:plain

 

残念ながら先程あげた記事は途中から有料らしく、ここまでの勉強しかできませんでしたが、他のサイトを利用してrequestライブラリなどについて調べたいです。

今回は色々調べていくうちにモジュールやライブラリに関する理解が深まりました。