Kの備忘録(仮)

Python、VBA、Excelを中心に記事を投稿

Python スクレイピングをするための準備 beautifulsoup4モジュール1

beautifulsoup4モジュールとは

Requestsモジュールで取得したサイト情報から
HTML解析(受け取ったレスポンスから必要な部分を抜き出す)を
行うときに使用するモジュールです。

beautifulsoup4モジュールは外部ライブラリで、Anacondaに同梱されています。

※Anacondaを使用せずにPythonを使う場合は、
 以下のページの「外部ライブラリのモジュールのインストール方法」を
 参考にして、モジュールをインストールしてください。
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録(仮)

beautifulsoup4モジュールでできること

BeautifulSoup関数を使ってサイトのHTML情報の中から
必要な情報を抽出できます。

BeautifulSoup(r.text, 'html.parser')
# 「r」はrequests関数で取得したHTML情報を格納した変数です。
# 「.text」をつけることで、HTML情報をドキュメント化します。
# 「html.parser」はPythonに同梱されている、構文解析を行うツールです。
# ※parser・・・構文解析を行うためのプログラムの総称

BeautifulSoupの戻り値は、BeautifulSoupオブジェクトです。

このBeautifulSoupオブジェクトを使って、以下のことができます。
・サイト上のすべてのh2タグの内容を取得
・特定のタグの中身を抽出
・サイト上に表があれば、tabelタグの情報をそのまま取得
など
f:id:lbibouroku:20210528081846p:plain

今回は、HTML解析に必要な beautifulsoup4モジュールとHTMLとCSSについて簡単に説明します。

◆目次◆

HTMLとは

  • HTML
    Hyper Text Markup Languageの略で
    Webページを作成する際に使用する言語です。
    インターネットサイトはこのHTML言語をもとに構成されています。
# HTML言語

<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8">
    <title>○○(タイトル)</title>
  </head>
  <body>
    <img src="images/AAA" alt="BBB">
  </body>
</html>

CSSとは

Cascading Style Sheetsの略で
HTMLで作られたサイトを装飾する言語です。
例えば、以下のコードは、
p(段落を指定するためのタグ)の文字を青色に装飾しています。

p {
  color: blue;
}

ちなみに、調べたいサイトのHTMLソースは
「Ctrl + U」で表示されます。
気になるサイトがあったら是非試してください。

次回はbeautifulsoup4モジュールを実際に使って
HTML解析を行います。


スクレイピングの記事◇

Python スクレイピングとは? 概要と注意点 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール2 - Kの備忘録(仮)