Python スクレイピングをするための準備 beautifulsoup4モジュール1
beautifulsoup4モジュールとは
Requestsモジュールで取得したサイト情報から
HTML解析(受け取ったレスポンスから必要な部分を抜き出す)を
行うときに使用するモジュールです。
beautifulsoup4モジュールは外部ライブラリで、Anacondaに同梱されています。
※Anacondaを使用せずにPythonを使う場合は、
以下のページの「外部ライブラリのモジュールのインストール方法」を
参考にして、モジュールをインストールしてください。
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録(仮)
beautifulsoup4モジュールでできること
BeautifulSoup関数を使ってサイトのHTML情報の中から
必要な情報を抽出できます。
BeautifulSoup(r.text, 'html.parser') # 「r」はrequests関数で取得したHTML情報を格納した変数です。 # 「.text」をつけることで、HTML情報をドキュメント化します。 # 「html.parser」はPythonに同梱されている、構文解析を行うツールです。 # ※parser・・・構文解析を行うためのプログラムの総称
BeautifulSoupの戻り値は、BeautifulSoupオブジェクトです。
このBeautifulSoupオブジェクトを使って、以下のことができます。
・サイト上のすべてのh2タグの内容を取得
・特定の
・サイト上に表があれば、tabelタグの情報をそのまま取得
など
今回は、HTML解析に必要な beautifulsoup4モジュールとHTMLとCSSについて簡単に説明します。
◆目次◆
HTMLとは
- HTML
Hyper Text Markup Languageの略で
Webページを作成する際に使用する言語です。
インターネットサイトはこのHTML言語をもとに構成されています。
# HTML言語 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>○○(タイトル)</title> </head> <body> <img src="images/AAA" alt="BBB"> </body> </html>
CSSとは
Cascading Style Sheetsの略で
HTMLで作られたサイトを装飾する言語です。
例えば、以下のコードは、
p(段落を指定するためのタグ)の文字を青色に装飾しています。
p { color: blue; }
ちなみに、調べたいサイトのHTMLソースは
「Ctrl + U」で表示されます。
気になるサイトがあったら是非試してください。
次回はbeautifulsoup4モジュールを実際に使って
HTML解析を行います。
◇スクレイピングの記事◇
Python スクレイピングとは? 概要と注意点 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール2 - Kの備忘録(仮)