WEBページ文字数カウントツール【その1】

🧮 ページを取得して文字数をカウントしています… (数秒かかる場合があります)


WEBページ文字数 比較ツール【その2】

🌀 2ページの情報を取得・カウントしています... (時間がかかる場合があります)

WEBページ文字数カウントツール【1】

URLを1つ入力すると、そのページに含まれるテキストの文字数を自動でカウントします。

このツールの特徴

  • 正確なテキスト量の把握: 単にHTML全体を数えるのではありません。ページの裏側にあるHTMLタグやCSS、JavaScript(<script>タグなど)のコードを除外し、訪問者が実際に読むことになる「本文テキスト」の量だけを抽出してカウントします。
  • 2種類のカウント結果:
    1. 空白を含む文字数: 改行やスペースも含めた、原稿用紙などで使われる一般的な総文字数です。
    2. 空白を除いた文字数: テキストの「密度」や「情報量」を純粋に測るための文字数です。

こんな時に便利! 利用シーン

  • ブログ記事のセルフチェック: 「この記事、ちょっと内容が薄いかな?」「書き上げたけど、想定したボリュームに達しているか?」といった最終確認に使えます。
  • WEBライターの納品・検収: 納品する記事や、外注先から上がってきた記事の文字数が、発注した通りのボリュームになっているかを客観的に確認できます。
  • 競合調査の第一歩: 「あの人気サイトの記事は、いつも大体どれくらいの長さで書かれているんだろう?」という簡単なリサーチに最適です。

WEBページ文字数 比較ツール【2】

2つのURLを入力することで、両ページの文字数を同時にカウントし、「どちらが」「何文字多いか(少ないか)」を瞬時に比較・分析します。

このツールの特徴

SEO対策やコンテンツ改善において、最も強力な武器となります。

  • 差分が一目瞭然: それぞれの文字数(空白あり/なし)に加え、「📈 URL 1の方が、URL 2より 1,520 文字多いです」といった具体的な差をハイライト表示します。
  • 競合との「量」の差を可視化: ライバル記事と自分の記事の間に、どれだけの「情報量の差」があるかを数値で突きつけます。

こんな時に超便利! 最強の利用シーン

  • SEOの競合分析(超重要): 狙っているキーワードで検索した際、上位1位〜5位の記事(競合)と自分の記事を比較してみましょう。もし自分の記事の文字数が競合の平均より極端に少ない場合、それは「ユーザーの疑問に答えきれていない(=情報が不足している)」可能性が高いという強力なシグナルです。
  • リライト戦略の立案: 既存記事の順位が上がらない時、競合と比較して「文字数が足りない=情報が不足している」ことがわかれば、「次はこのトピックを追記しよう」という具体的なリライト方針が立てやすくなります。
  • コンテンツの網羅性を測る目安: もちろん「文字数が多ければ必ず勝てる」わけではありません。しかし、「上位記事が5,000文字かけて説明しているテーマ」を、あなたが1,000文字で説明しきるのは困難です。文字数は「検索意図を満たすために必要な情報量の目安」として非常に役立ちます。

⚠️ ご利用時の注意点

  • カウント対象について: これらのツールは、HTMLタグやスクリプトコードを除いた「本文テキスト」をカウントします。ただし、JavaScriptによってページが表示された後に動的に読み込まれるコンテンツ(「もっと見る」ボタンを押して初めて表示されるテキストなど)の一部は、カウントに含まれない場合があります。
  • 取得について: ページのHTML情報を取得するため、対象サイトのセキュリティ設定(CORSポリシーなど)やサーバーの応答状況によっては、正常に文字数を取得できない場合や、カウントに時間がかかる場合があります。あくまで目安としてご活用ください。

情報網羅性とは何か?:検索意図の「完全な満腹度」

まず大前提として、「情報網羅性(Information Completeness)」とは何かを定義します。

これは、「あるキーワードで検索したユーザーが抱えるであろう、すべての疑問、次の疑問、関連する懸念」に対して、その1ページ(または1サイト)がどれだけ広範囲かつ深く回答できているかを示す尺度です。

Googleの使命は「ユーザーの検索タスクを最短で完了させること」です。もしあなたのページが検索意図Aにしか答えておらず、ユーザーが次の疑問BやCを解決するために再び検索結果に戻る(いわゆる "Pogo-sticking")必要があるなら、そのページの網羅性は低いと判断されます。

情報網羅性が高いコンテンツとは、ユーザーが「この記事だけ読めば、知りたかったこと全部と、知らなかったけど知りたかったことまで全部わかった。もう検索し直す必要がない」と感じる状態、すなわち**検索意図の「完全な満腹度」**を提供するコンテンツです。


第1章:情報網羅性の「設計図」としての共起語

情報網羅性を高めるには、ユーザーが求めるトピック(話題)を漏れなく含める必要があります。その「含めるべきトピックのリスト」を見つけるための手がかりが「共起語」です。

共起語とは何か?

共起語(Co-occurrence words)とは、**特定のキーワード(ターゲットキーワード)と「同じ文脈(同じドキュメント内、または近い位置)で頻繁に一緒に(共に)出現する(起きる)単語」**を指します。

これは、単なる「関連キーワード(検索サジェスト)」とは根本的に異なります。

  • 関連キーワード: ユーザーが「検索窓に入力する言葉」のバリエーション。(例:「SEO対策 やり方」「SEO対策 費用」)
  • 共起語: 検索意図に答える「本文中に含まれるべき言葉(トピック)」。(例:「SEO対策」という記事本文に出てくる「内部リンク」「タイトルタグ」「検索意図」「クローラー」など)

なぜ共起語が網羅性の鍵なのか?(専門家視点)

Googleは、検索キーワードに対してどのページを上位表示させるかを決める際、単にそのキーワードが何回出現したか(TF: Term Frequency)だけを見ていません。

Googleは、「そのトピックについて権威ある説明をするならば、当然これらのサブトピックにも言及されているはずだ」という統計的な言語モデルを持っています。

例えば、「住宅ローン」というキーワードを考えてみましょう。 このトピックを「網羅的」に解説するなら、ユーザーは何を知りたいでしょうか? おそらく以下のトピックは必須です。

  • 「金利」(さらに言えば「固定金利」「変動金利」)
  • 「控除」(具体的には「住宅ローン控除」「年末調整」)
  • 「審査」(「事前審査」「本審査」「信用情報」)
  • 「返済」(「繰り上げ返済」「返済期間」)

これらが「住宅ローン」というキーワードの共起語です。

もし「住宅ローン」について解説する記事に「金利」や「審査」という単語への言及が一切なければ、Google(そしてユーザー)は「この記事は情報が欠けている(網羅性が低い)」と判断します。

共起語は、検索意図という「料理」を作るために必須の「材料リスト」そのものなのです。


第2章:共起語を抽出する「エンジン」としての形態素解析

では、どうすればその「共起語(材料リスト)」を正確に抽出できるのでしょうか。

検索上位10サイトのページ本文をすべてコピーしてきて眺めても、「どの単語が重要か」は直感ではわかりません。そこで必要になるのが、コンピュータによる自然言語処理(NLP)であり、その第一歩が「形態素解析」です。

形態素解析とは何か?

形態素解析(Morphological Analysis)とは、文章を「意味を持つ最小単位(=形態素)」に分割し、それぞれの品詞や活用形などを判別する技術です。

特に日本語は、英語と違って単語と単語の間にスペースがない「膠着語(こうちゃくご)」であるため、この処理が不可欠です。

▼ 形態素解析の例 原文:「東京都で美味しいラーメンを食べた。」

この一文を形態素解析エンジン(例: MeCab, Sudachi, Janomeなど)にかけると、以下のように分解されます。

表層形(単語)品詞原形(見出し語)
東京名詞東京
名詞(接尾辞)
助詞
美味しい形容詞美味しい
ラーメン名詞ラーメン
助詞
食べ動詞(連用形)食べる
助動詞(過去)

Google スプレッドシートにエクスポート

なぜ形態素解析がSEO(共起語抽出)に必要なのか?

この「分解」こそが、情報網羅性分析の精度を決定づけます。形態素解析がなければ、正確な共起語リストは作れません。理由は主に3つあります。

1. 正確な「単語」の切り出し(分かち書き)

「東京都知事」という文字列は、「東京都知事」という1つの固有名詞なのか、「東京」「都」「知事」という3つの単語なのかを判別する必要があります。解析により初めて、これを1つの単語としてカウントできます。

2. ノイズの除去(不要な品詞の除外)

上記の例で、「で」「を」「た」といった助詞助動詞は、文章を構成するためには必要ですが、トピック(話題)としての意味は持ちません。

形態素解析によって品詞が判別できれば、これらの「意味を持たない単語(ストップワード)」をすべて除外し、**「名詞」「動詞」「形容詞」「未知語(固有名詞など)」**といった、トピックの核となる単語だけを抽出できます。

3. 表記ゆれの正規化(見出し語化)

これが専門家レベルで最も重要です。 ユーザーは「食べる」「食べた」「食べれば」など、様々な活用形で言葉を使います。コンピュータがこれらを別々の単語としてカウントしてしまうと、頻出単語の統計が取れません。

形態素解析は、これらをすべて「原形(見出し語)」である「食べる」に統一(正規化)します。

同様に、「引越し」「引っ越し」「引越」といった表記ゆれも、辞書(コーパス)の工夫次第で正規化し、「引越し」という1つのトピックとして集計できるようになります。


第3章:専門家レベルのワークフロー:「網羅性」がスコア化される仕組み

では、WEBマスターや専門家(あるいはSEOツール)が「情報網羅性」を分析する際の、実際のワークフローを見てみましょう。

  1. STEP 1: SERP分析(競合の特定) ターゲットキーワードで検索し、上位表示されているページ(例:1位〜10位)を分析対象として特定します。これらは「Googleが現時点でユーザーの意図を最も満たしていると評価しているお手本」です。
  2. STEP 2: クローリングと本文抽出 対象ページのHTMLをクローリングし、ヘッダー、フッター、広告などの「ボイラープレート(共通部分)」を除去し、そのページ固有の「本文」だけを抽出します。
  3. STEP 3: 形態素解析(全競合ページへの適用) 抽出した全競合サイトの本文テキストを、すべて形態素解析にかけます。
    • 処理A: 文章を意味のある単語(名詞、動詞、形容詞など)に分解。
    • 処理B: 活用形をすべて原形(見出し語)に正規化。
    • 処理C: 助詞、助動詞などのストップワードを除去。
    • 結果:全競合サイトの本文に出てくる**「意味のある単語」の集合(巨大な単語リスト)**が完成します。
  4. STEP 4: 共起語のスコアリング(TF-IDFとLDA) ここからが統計処理の領域です。この「単語リスト」から「重要な共起語(含めるべきトピック)」をスコア化します。
    • ① TF-IDFによるスコアリング WEBマスターが最もよく聞くアルゴリズムがこれです。
      • TF (Term Frequency: 単語の出現頻度): そのページ内で、その単語がどれだけ多く出現したか。
      • IDF (Inverse Document Frequency: 逆文書頻度): 「その単語が、いくつの競合ページで使われているか」の逆数。(=多くのページで使われている一般的な単語ほどスコアが下がり、特定の数ページでしか使われていない専門的な単語ほどスコアが上がる
      TF-IDFスコアが高い単語 = 「一般的な単語ではないが、このトピックを説明する上では非常によく使われる、重要で特徴的な単語」となり、これが共起語リストの核となります。
    • ② トピックモデル(LDAなど)によるグルーピング(専門家領域) より高度な分析では、単語を単純にリストアップするだけでなく、「どの単語とどの単語がセットで使われやすいか」を分析します。 例えば「住宅ローン」の分析で、「変動」「固定」「金利」は1つのグループ(金利タイプ)として、「事前」「本審査」「信用情報」は別のグループ(審査プロセス)として出現する傾向があります。 LDA (Latent Dirichlet Allocation: 潜在的ディリクレ配分法) などのトピックモデル技術は、単語群をこのような「潜在的なサブトピックのクラスター(かたまり)」に自動で分類します。

WEBマスターへの結論とアクションプラン

形態素解析によって「正規化・フィルタリング」された単語を、TF-IDFやLDAなどで「スコアリング・グルーピング」したもの。それこそが、あなたがコンテンツを作成(あるいはリライト)する際に含めるべき「情報網羅性のための共起語(=必須トピック)リスト」です。

あなたがすべきことは、そのリストを見て、こう自問することです。

  1. (ギャップ分析) このリストにあるトピック(例:「繰り上げ返済のデメリット」)について、自分の記事は言及しているか?
  2. (見出しへの昇格) もし言及が弱いか、全くしていないなら、それはユーザーが求めている「必須の材料」が欠けている証拠である。すぐに見出し(h2, h3)として追記すべきではないか?
  3. (文脈の担保) 単にその単語を不自然に詰め込む(昔のSEO)のではなく、「そのトピックについて自然な文脈で解説する」ことを目指してください。

共起語は「答え」そのものではなく、ユーザーが抱える「暗黙の質問リスト」です。形態素解析は、その質問リストをノイズの中から正確に掘り起こすための「高精度なドリル」なのです。これらを使いこなし、ユーザーのあらゆる疑問に先回りして答えることが、最強のコンテンツSEO戦略となります。