WEBページ「見出し・hタグ」抽出ツール

🌀 ページを取得してHTMLを分析中です…

指定した単一ページのURLから、そのコンテンツを支える「骨格」である見出しタグ(H1〜H6タグ)を抽出するツールです。

多くのSEO担当者やWEBマスターは、競合分析の際にキーワードや文字数に注目しがちですが、Googleとユーザーの両方から「理解しやすい」と評価されるページの多くは、論理的で強力な「見出し構成」を持っています。

このツールを使えば、検索上位の競合が「どのような論理展開(アウトライン)で」「どのトピック(見出し)を重視しているか」を一目で把握でき、あなたのコンテンツ戦略を劇的に加速させます。


なぜ「見出し(hタグ)」がSEOに不可欠なのか?

「キーワードをH1タグに入れれば順位が上がる」といった2000年代の単純なSEOは終わりました。現代のSEOにおいて、見出しが果たす役割はより本質的であり、それは「構造化」と「コンテキスト(文脈)の伝達」の2点に集約されます。

hタグは「ユーザー」と「検索エンジン」のための道しるべ

hタグ(見出し)は、記事の「目次」そのものです。

  • ユーザー(読者)にとって: ユーザーは記事を熟読しません。彼らはまず「スキミング(流し読み)」します。見出しだけを拾い読みして、そのページに自分の求める答えがあるかを瞬時に判断します。魅力的な見出し構成は、ユーザーの離脱率を下げ、ページ滞在時間を延ばす最強のUX(ユーザー体験)施策となります。
  • 検索エンジンにとって: Googleのクローラーも同様です。hタグは、そのページがどのようなトピックの階層で成り立っているかをGoogleに伝えるための、最も強力な「構造的シグナル」です。

専門家の知見: Googleは「見出し」をどう見ているか?

海外の著名なSEO専門家やGoogleの動向を見ても、この「構造化」の重要性は明らかです。

Googleの検索アドボケイトであるジョン・ミューラー(John Mueller)氏は、この点について繰り返し言及しています。彼の見解を要約すると以下のようになります。

「Googleは、ランキングシグナルとして特定のH1タグやH2タグの数だけを見ているわけではない。我々(Google)がhタグを使うのは、その見出しの下にあるテキストブロック(段落)が何について書かれているのか、その文脈をより深く理解するためだ。」

つまり、<h2>安い おすすめ ランチ</h2> という見出しがあれば、Googleはその直後の文章群を「安いランチのおすすめ情報に関する文脈」として認識する精度が上がる、ということです。キーワードを入れること自体が目的ではなく、コンテンツの文脈をGoogleに正しく伝えることが目的なのです。

HTML5と「複数のH1タグ」の神話

古いSEOの常識では「H1タグは1ページに1つでなければならない」とされていました。これは今でも多くのケースで「論理的に正しい(記事の主題は1つであるべき)」ですが、厳密には間違いです。

HTML5の仕様では、<article><section>といったセクショニング・コンテンツごとにH1タグを持つことが文法的に許可されています。

ジョン・ミューラー氏も「ページ内に複数のH1タグがあっても問題ない」と発言しています。

ただし、WordPressの一般的な「投稿」ページにおいては、ページの主題を示す「記事タイトル」のみをH1とし、記事内の論理構成(章立て)はH2、H3…と正しく階層化するのが、依然として最も安全かつ論理的な実装です。このツールを使えば、あなたのテーマが意図せず複数のH1タグ(例えば、サイトロゴと記事タイトル両方)を生成していないかを即座にチェックできます。


このツールを使った具体的なSEO施策アクションプラン

このツールから得られる「見出し構成リスト」は、以下の3つの強力なアクションに直結します。

アクション 1: 競合との「トピック・ギャップ分析」

あなたの記事が上位表示されない最大の理由は、多くの場合「情報網羅性の不足」です。

  1. あなたが狙うキーワードで、現在上位1位〜3位の競合ページURLをこのツールで分析します。
  2. 抽出された3つの「見出し(H2, H3)リスト」を、あなたの記事の見出しリストの横に並べます。
  3. 競合は言及しているのに、あなたが言及していないトピック(見出し)が必ず見つかります。それが、検索ユーザーが求めているのにあなたの記事には欠けている「穴(ギャップ)」です。
  4. その「穴」を埋めるための章(見出し)をあなたの記事に追記し、リライトしてください。

アクション 2: 検索意図の「ズレ」を発見する

上位表示されているページの見出し構成は、Googleが「検索意図に対する最適解」として提示しているものです。

例えば、[SEO対策 ツール] というキーワードで上位サイトの見出しがすべて <h2>おすすめ無料ツール10選</h2> <h2>有料ツールの比較</h2> のようになっている(=比較・リスト型)のに、あなたの記事の見出しが <h2>SEOツールとは?</h2> <h2>ツール導入の歴史</h2> となっている(=解説型)場合、あなたは検索意図から根本的にズレています。

このツールで上位サイトの「型」を分析し、自分の記事構成がユーザーの求める型と一致しているかを確認してください。

アクション 3: サイト内部の「技術的SEO監査」

このツールは、競合だけでなくあなた自身のページURLの監査にも使えます。

  • 見出しの階層は正しいか?: H1の次にいきなりH4が来ていませんか? H2の下にH3が正しく配置されていますか? 論理的な階層構造は、Googleの理解を助けます。
  • Hタグの「デザイン目的」での誤用はないか?: サイドバーの項目や「関連記事」といったデザイン要素を、単に「文字を大きくしたい」という理由だけでH2やH3にしていませんか? 見出しタグは、あくまでメインコンテンツの「論理構造」のために使うべきです。

このツールで発生する可能性があるエラーは、大きく分けて「入力ミス」「相手先サイトのブロック」「相手先サイトの問題」の3種類です。

主なエラーコードと、その説明文(ユーザーに表示するメッセージの案)は以下の通りです。


ユーザー入力と論理エラー (こちらの問題)

  • エラーコード: (バリデーションエラー)
    • 説明文: URLが入力されていません。 または 無効なURL形式です。「https://...」から正しく入力してください。
    • 原因: ユーザーがURLを入れずにボタンを押したか、URLの形式が間違っている(例: example.com のみ、など)。
  • エラーコード: (ロジックエラー)
    • 説明文: ページの取得には成功しましたが、分析対象の見出しタグ (H1〜H6) が一つも見つかりませんでした。
    • 原因: ページ自体は正常に読み込めましたが、そのHTML内に見出しタグが一切存在しない(例: 特殊なJavaScriptで描画されるページ、など)。

相手先サイトの防御・ブロック (最も多い原因)

  • エラーコード: HTTP 403 (Forbidden)
    • 説明文: 相手先サイトがアクセスを拒否しました (403 Forbidden)。ボット対策(スクレイピング対策)により、このツールからのアクセスがブロックされている可能性が非常に高いです。
    • 原因: Cloudflareなどのセキュリティに守られているサイトが、このツール(プロキシ)からのアクセスを「ボットである」と正しく検知し、アクセスを禁止した。
  • エラーコード: HTTP 408 (Request Timeout)
    • 説明文: ページの取得に失敗しました (408 Request Timeout)。相手先サイトからの応答が遅すぎたため、接続が中断されました。
    • 原因: 相手先サイトが遅いか、ボット対策として意図的に応答を遅延させている(ターピッティング)ため、プロキシサーバーが待機限界時間を超えてタイムアウトした。
  • エラーコード: HTTP 429 (Too Many Requests)
    • 説明文: アクセスが制限されました (429 Too Many Requests)。短時間にリクエストを送りすぎたため、相手先サイト(またはプロキシ)から一時的に拒否されています。時間をおいて試してください。
    • 原因: 相手先サイトのレートリミット(アクセス頻度制限)に引っかかった。

相手先・通信の問題 (その他の原因)

  • エラーコード: HTTP 404 (Not Found)
    • 説明文: 指定されたURLは見つかりませんでした (404 Not Found)。ページのURLが正しいか(削除されていないか)確認してください。
    • 原因: ユーザーが入力したURLのページが、相手先サイトに物理的に存在しない。
  • エラーコード: HTTP 500 / 503 (Server Error)
    • 説明文: 相手先サイトが応答しません (500/503)。相手先サーバーがメンテナンス中か、ダウンしている可能性があります。
    • 原因: 分析しようとしたサイト自体が、技術的な問題やメンテナンスで一時的に停止している。
  • エラーコード: (ネットワークエラー)
    • 説明文: 通信に失敗しました。プロキシサーバーがダウンしているか、ご自身のインターネット接続に問題がある可能性があります。
    • 原因: allorigins.win サーバー自体が応答しない、またはユーザーがオフラインの場合。