Python　スクレイピングをするための準備　beautifulsoup4モジュール1

beautifulsoup4モジュールとは

Requestsモジュールで取得したサイト情報から
HTML解析（受け取ったレスポンスから必要な部分を抜き出す）を
行うときに使用するモジュールです。

beautifulsoup4モジュールは外部ライブラリで、Anacondaに同梱されています。

※Anacondaを使用せずにPythonを使う場合は、
　以下のページの「外部ライブラリのモジュールのインストール方法」を
　参考にして、モジュールをインストールしてください。
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録（仮）

beautifulsoup4モジュールでできること

BeautifulSoup関数を使ってサイトのHTML情報の中から
必要な情報を抽出できます。

BeautifulSoup(r.text, 'html.parser')
# 「r」はrequests関数で取得したHTML情報を格納した変数です。
# 「.text」をつけることで、HTML情報をドキュメント化します。
# 「html.parser」はPythonに同梱されている、構文解析を行うツールです。
# ※parser・・・構文解析を行うためのプログラムの総称

BeautifulSoupの戻り値は、BeautifulSoupオブジェクトです。

このBeautifulSoupオブジェクトを使って、以下のことができます。
・サイト上のすべてのh2タグの内容を取得
・特定のタグの中身を抽出
・サイト上に表があれば、tabelタグの情報をそのまま取得
など
f:id:lbibouroku:20210528081846p:plain

今回は、HTML解析に必要な beautifulsoup4モジュールとHTMLとCSSについて簡単に説明します。

◆目次◆

beautifulsoup4モジュールとは
beautifulsoup4モジュールでできること
HTMLとは
CSSとは

HTMLとは

HTML
Hyper Text Markup Languageの略で
Webページを作成する際に使用する言語です。
インターネットサイトはこのHTML言語をもとに構成されています。

# HTML言語

<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8">
    <title>○○（タイトル）</title>
  </head>
  <body>
    <img src="images/AAA" alt="BBB">
  </body>
</html>

CSSとは

Cascading Style Sheetsの略で
HTMLで作られたサイトを装飾する言語です。
例えば、以下のコードは、
p（段落を指定するためのタグ）の文字を青色に装飾しています。

p {
  color: blue;
}

ちなみに、調べたいサイトのHTMLソースは
「Ctrl + U」で表示されます。
気になるサイトがあったら是非試してください。

次回はbeautifulsoup4モジュールを実際に使って
HTML解析を行います。

◇スクレイピングの記事◇

Python スクレイピングとは？概要と注意点 - Kの備忘録（仮）
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録（仮）
Python スクレイピングをするための準備 Requestsモジュール2 - Kの備忘録（仮）