Googleマップでのデータ抽出方法を学ぼう!
【目次】
- 本日本のGoogleマップのリードを抽出する方法とは?
- Octoparseを使用したGoogleマップからのリードのスクレープ方法
- ソフトウェアを使用する理由
- スクレープ.ioを使用したメールアドレスの抽出方法
- ロンドンのバーバーショップを例に説明します
- ページの複数回スクロール
- 画像、レビュー、評価などのデータの抽出方法
- URLのコピーとペースト
- クッキーの保存方法
- 抽出データのカスタマイズ方法
オクトパースを使ったGoogleマップからのリードスクレイピング方法
今日の動画では、Sim no code WebスクレイピングツールであるOctoparseを使用して、Googleマップからリードをスクレイピングする方法を学びます。以前は同様のトピックについてのビデオは多数ありましたが、Googleマップは非常に早く進化しているため、6ヶ月前に作成されたNo Codeのチュートリアルでも以前のようにうまくいかない場合があります。それでは、早速解説していきましょう。
まず、Octoparseのダウンロードリンクを説明欄に入れています。このチュートリアルでは、企業の電話番号を抽出することができますが、メールアドレスは抽出できません。メールアドレスを取得したい場合は、代わりに「scrap.io」を使用することをおすすめします。これは高速で使いやすいソフトウェアです。このソフトウェアのリンクも説明欄に入れています。
例として、ロンドンのバーバーショップを探しています。まずはページを最下部までスクロールし、新しいデータをロードします。そして、詳細ページをクリックします。最後に、タイトル、写真の数、レビューの数、評価、カテゴリ、電話番号などのデータを抽出します。
最初のステップは、URLをコピーしてOctoparseに貼り付けることです。その後、[開始]をクリックします。ウェブサイトにアクセスできないポップアップが表示されますが、問題ありません。このポップアップを削除するために、ブラウズモードをオンにします。[全て拒否]をクリックしてウェブサイトにアクセスします。ブラウズモードをオフにし、ポップアップが表示されないようにするために、クッキーを保存します。オプションに移動し、[クッキーを使用]と[現在のページからクッキーを使用]を選択します。[適用]をクリックして保存します。
このチュートリアルでは、さまざまな式を多数使用します。これらの式はすべて説明欄に書かれていますので、コピーして貼り付けるだけで使用できます。これらの式はXPathsと呼ばれるものです。これがどのような意味を持つかについての詳細は、おそらく別のビデオで説明する予定です。
最初に行うことは、ループアイテムを作成し、ページ内の各要素を選択することです。[ステップを追加]をクリックして[ループ]を作成します。ループモード内を確認し、「変数リスト」をクリックします。最初の式を入力し、適用ボタンをクリックします。これにより、3つの要素が表示されますが、これでは足りません。ページの最下部までスクロールしてからすべての要素を選択する必要があります。最初のループの上にもう1つループを追加します。今度は「スクロールページ」要素です。デフォルトのスクロールエリアか部分スクロールエリアかを選択する必要があります。部分スクロールエリアの例を見せます。指定した部分にスクロールバーが表示されます。部分スクロールエリアがあるため、部分スクロールエリアを選択します。XPathとしては、特定のスクロールバーが含まれる正確なエリアを指定します。その他のオプションもありますが、「1画面分」を選択し、できるだけ多くの回数スクロールするようにします。[コンテンツのロードが終了するとループ終了]のチェックボックスを必ずオンにします。待機時間は2秒に設定します。これにより、ループアイテムをスクロールアイテムの中にドラッグ&ドロップできます。それぞれの要素をクリックできるようになります。クリックアイテムエレメントを追加し、[相対Xpath]を選択します。相対Xpathと絶対Xpathの違いは、相対Xpathを選択すると、各要素ごとに特定のURLをクリックするということです。一方、絶対Xpathでは、選択した要素に関係なく同じURLがクリックされます。この場合の絶対Xpathは単純に「/a」です。オプションで「AJAXでロード」をクリックし、タイムアウトを10秒に設定します。これで、ループアイテムとクリックアイテムをクリックできるようになります。データを抽出するためには、タイトル、写真、レビュー数、評価、カテゴリ、電話番号などのデータを抽出する必要があります。
他の方法としては、タイトルを抽出するための「抽出データ」ステップを追加することも可能です。URLを抽出する場合は、「カスタムフィールド」→「ページレベルデータ」→「ページURL」と選択します。ただし、「ループ内でデータの抽出」のチェックボックスを外すことが重要です。同様に、タイトルなどのデータを抽出するために「カスタムフィールド」→「ページ内データのキャプチャ」をクリックし、「絶対Xpath」を選択します。XPathを挿入し、「確認」をクリックします。これにより、タイトルが抽出されます。抽出したデータをエクセルシートにエクスポートすることができます。
以上がGoogleマップからのリードスクレイピング方法の概要です。最後に、ダブりを排除し、エクセルスプレッドシートを取得します。このようなデータの抽出は非常に役立ちます。この動画を楽しんでいただけたら幸いです。もしウェブスクレイピングのサービスが必要な場合は、メールで見積もりを依頼することができます。また、大規模なスケールでGoogleマップのスクレイピングが必要な場合は、scrap.ioをご利用ください。リンクは引き続き説明欄に掲載されています。次回はまたお会いしましょう。
【ハイライト】
- Octoparseを使用したGoogleマップからのリードスクレイピング方法
- ページの最下部までスクロールして新しいデータをロードする方法
- ループとクリック要素を使用してデータを抽出する方法
- 抽出データをエクセルスプレッドシートにエクスポートする方法
【FAQ】
Q: メールアドレスを抽出する方法はありますか?
A: 本チュートリアルではメールアドレスの抽出には対応していません。メールアドレスを抽出したい場合は、代わりに「scrap.io」をご利用ください。
Q: データをエクセルシートにエクスポートする方法はありますか?
A: エクスポートするための手順があります。詳細は動画をご覧ください。
【リソース】
- Octoparse: [URL]
- scrap.io: [URL]