Kの備忘録(仮)

Python、VBA、Excelを中心に記事を投稿

Python スクレイピングをするための準備 デベロッパーツール

前回に引き続き、beautifulsoup4モジュールについて説明予定でしたが先にデベロッパーツールについて説明することにしました。

なぜなら、スクレイピングを行うときに必要なHTML情報を取得するためにデベロッパーツールを使うことは必須となるためです。

◆目次◆

デベロッパーツールとは

WebサイトのHTML構成などが確認できるブラウザのデバッグーツールです。Webページ上で「Ctrl + Shift + I」を押すと表示されます(MACでは「⌘ + option + i」です)。スクレイピングではこのツールを使って、抽出したい箇所のタグや属性の情報を確認します。

今回はGoogle Chromeデベロッパーツールで操作を行います。

デベロッパーツールの使い方

例として、「https://weather.yahoo.co.jp/weather/search/?p=東京」の市区町村の表の情報を取得したいと思います。

まずは、デベロッパーツールのうえで「Ctrl + F」を押してHTML上の文字を検索します。

検索を実行すると、HTMLの該当の箇所まで移動できるので、欲しいタグや属性(表の場合はtableタグ)の情報を確認します。

デベロッパーツールの上にマウスカーソルを乗せると左側の赤枠内のように、WEBサイトの表示の色が変わります。

f:id:lbibouroku:20211208192752p:plain

そして、該当のタグの上で「右クリック→Copy→Copy selector」の順で進めるとセレクタの情報が取得できます。

市区町村の表のセレクタ情報は「#rsltmuni > div.serch-table > table」でした。

f:id:lbibouroku:20210529155315p:plain

また、WEBページ上でデベロッパーツールで確認したい箇所で右クリック→「検証」をクリックすると、デベロッパーツールの該当箇所の色が変わります。 f:id:lbibouroku:20211208191003p:plain f:id:lbibouroku:20211208191022p:plain

これでも簡単にHTMLの情報を調べられますね。

スクレイピング用に目的のデータを取得する流れは以下のとおりです。

  1. Google Chromeで取得したい情報が載っているサイトページを開く
  2. デベロッパーツールで抽出したい箇所のタグの情報を調べる
  3. どの情報で抽出するか検討する  ・ タグ名
     ・id属性
     ・class属性
     ・セレクタ
  4. beautifulsoup4モジュールでほしい情報を抽出する

次回こそはbeautifulsoup4モジュールを実際に使ってHTML解析を行いたいと思います。

スクレイピングの記事◇

Python スクレイピングとは? 概要と注意点 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール2 - Kの備忘録(仮)
Python スクレイピングをするための準備 beautifulsoup4モジュール1 - Kの備忘録(仮)