Python スクレイピングをするための準備 デベロッパーツール
前回に引き続き、beautifulsoup4モジュールについて説明予定でしたが先にデベロッパーツールについて説明することにしました。
なぜなら、スクレイピングを行うときに必要なHTML情報を取得するためにデベロッパーツールを使うことは必須となるためです。
◆目次◆
デベロッパーツールとは
WebサイトのHTML構成などが確認できるブラウザのデバッグーツールです。Webページ上で「Ctrl + Shift + I」を押すと表示されます(MACでは「⌘ + option + i」です)。スクレイピングではこのツールを使って、抽出したい箇所のタグや属性の情報を確認します。
今回はGoogle Chromeのデベロッパーツールで操作を行います。
デベロッパーツールの使い方
例として、「https://weather.yahoo.co.jp/weather/search/?p=東京」の市区町村の表の情報を取得したいと思います。
まずは、デベロッパーツールのうえで「Ctrl + F」を押してHTML上の文字を検索します。
検索を実行すると、HTMLの該当の箇所まで移動できるので、欲しいタグや属性(表の場合はtableタグ)の情報を確認します。
デベロッパーツールの上にマウスカーソルを乗せると左側の赤枠内のように、WEBサイトの表示の色が変わります。
そして、該当のタグの上で「右クリック→Copy→Copy selector」の順で進めるとセレクタの情報が取得できます。
市区町村の表のセレクタ情報は「#rsltmuni > div.serch-table > table」でした。
また、WEBページ上でデベロッパーツールで確認したい箇所で右クリック→「検証」をクリックすると、デベロッパーツールの該当箇所の色が変わります。
これでも簡単にHTMLの情報を調べられますね。
スクレイピング用に目的のデータを取得する流れは以下のとおりです。
- Google Chromeで取得したい情報が載っているサイトページを開く
- デベロッパーツールで抽出したい箇所のタグの情報を調べる
- どの情報で抽出するか検討する
・ タグ名
・id属性
・class属性
・セレクタ - beautifulsoup4モジュールでほしい情報を抽出する
次回こそはbeautifulsoup4モジュールを実際に使ってHTML解析を行いたいと思います。
◇スクレイピングの記事◇
Python スクレイピングとは? 概要と注意点 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール1 - Kの備忘録(仮)
Python スクレイピングをするための準備 Requestsモジュール2 - Kの備忘録(仮)
Python スクレイピングをするための準備 beautifulsoup4モジュール1 - Kの備忘録(仮)