PageRank

PageRankとは

PageRankとは、Webページ同士のリンク構造から、そのページの重要度を数理的に推定するアルゴリズムです。

Google の初期検索エンジンでは、リンク構造を使って各ページの「quality ranking」を計算する中心技術として使われました。

直感的には、「重要なページからリンクされるページは重要である」という考え方です。しかも単なる被リンク数ではなく、リンク元の重要度とリンク元が何本の外向きリンクを持つかまで考慮します。

原論文では、PageRank はリンクをすべて同じ重みで数えるのではなく、リンク元ページの重みを分配する形で定義され、通常は減衰係数 $d=0.85$ を使うと説明されています。別の言い方をすると、PageRank は「ランダムにリンクをたどる閲覧者が、長期的にどのページに到達しやすいか」を表す確率モデルでもあります。原論文では、ランダムサーファーが時々別のページへ飛ぶモデルとして説明され、各ページの PageRank は Web 全体で和が 1 になる確率分布として扱われます。

PageRank の数式は、まず原論文の書き方と、いま研究や実装でよく使う正規化形を分けて押さえると分かりやすいです。

原論文では、ページ $A$ に $T_1,\dots,T_n$ がリンクしているとき、

$PR(A)=(1-d)+d\left(\frac{PR(T_1)}{C(T_1)}+\cdots+\frac{PR(T_n)}{C(T_n)}\right)$

と書かれます。

ここで $C(T_i)$ はページ $T_i$ の外向きリンク数、 $d$ は damping factor で、原論文では通常 $0.85$ を使うとされています。また同論文は、PageRank は全ページで和が 1 の確率分布であり、反復法で計算でき、正規化リンク行列の主固有ベクトルに対応すると説明しています。

一方、数理的に厳密な説明や実装では、ふつう次の正規化形で書きます。

$\pi_i=\frac{1-d}{N}+d\sum_{j\to i}\frac{\pi_j}{L_j}$

ここで $N$ は総ページ数、 $L_j$ はページ $j$ の外向きリンク数です。

原論文の簡潔な書き方とは別に、PageRank を「和が 1 の確率分布」として扱うと、この $(1-d)/N$ (1−d)/N の形で理解するのが自然です。

この式は、行列表現では

$G=dS+(1-d)E,\qquad \pi^{\mathsf T}G=\pi^{\mathsf T},\qquad \|\pi\|_1=1$

と書けます。

$S$ はリンク構造を表す確率行列、 $E$ はランダムジャンプを表す行列です。

一様ジャンプなら $E=(1/N)ee^{\mathsf T}$ なので、これを成分ごとに展開すると上のスカラー式になります。つまり、PageRank は Google 行列の定常分布です。

式の意味は単純です。ページ $i$ の PageRank は、i にリンクしている各ページの PageRank を、そのページの外向きリンク数で割って受け取った総和に、ランダムジャンプ項を足したものです。したがって、重要なページからの 1 本のリンクは、重要でないページからの多数のリンクより強く効くことがあります。

実装ではもう 1 点だけ注意があります。外向きリンクが 0 本のページは dangling nodes と呼ばれ、そのままだと確率行列の行が 0 になるので、通常はジャンプ分布で補って $S$ を確率行列にします。

リンク解析に基づく重要度推定の理論、派生、そしてSEOにおけるPageRankの位置づけ

PageRankは、Webをページとハイパーリンクから構成される有向グラフとして捉え、各ページの重要度をリンク構造から推定する手法です。

Googleの初期の検索システムでは、リンク構造から品質ランキングを算出するPageRankと、リンクテキストを活用する仕組みがSEOの中核として位置付けられていました。

Googleは現在も、ページ間のリンク関係を理解する複数のシステムの一つとしてPageRankを挙げており、その仕組みは大きく進化しているものの、コアランキングシステムの一部として機能し続けていると説明していますが、検索順位は同時に、多数のシグナルやNeural Matching、RankBrain、スパム検出システムなどを含む複合的な仕組みによって決定されています。

したがって、現代におけるPageRankの理解としては、「検索順位を一つの式で決定する唯一の要因」としてではなく、「ページ単位のリンクグラフに基づく事前的な重要度、あるいはグローバルな中心性指標」として捉えるのが最も適切です。

PageRankの出発点は単純でありながら非常に強力です。

Web上のリンクは単なるナビゲーション手段ではなく、他のページへの注意の配分、すなわち一種の引用行為として解釈することができます。

ラリー・ペイジとセルゲイ・ブリンは、Webのリンクグラフを用いることで、ページの「引用としての重要度（citation importance）」を機械的かつ客観的に推定できると考えました。

また特許文献においても、重要な文書からの引用は、重要でない文書からの引用よりも高く評価されるべきであると述べています。

PageRankが革新的であった点は、単に被リンク数を数えるだけの単純な人気度ではなく、「重要なページからのリンクほど重みが大きい」という再帰的な定義を導入したことにあります。

この考え方は、SEOにおいて本質的です。

PageRankは過去の遺物ではなく、SEOの中で再解釈され続けている古典的な理論であると言えます。

PageRankの定義

PageRankでは、各ページをノード、リンクを有向辺として表現します。

あるページ i に対するPageRankは、i を指すページの集合 $B_i$ と、それぞれのリンク元ページ j の外向きリンク数$ L(j)$ を用いて、一般的に次のように表されます。

$PR(i)=\frac{\alpha}{N}+(1-\alpha)\sum_{j\in B_i}\frac{PR(j)}{L(j)}$

ここで、N は総ページ数、α はランダムジャンプ確率を表します。

多くの教科書や解説では、これと等価な形として d = 0.85 をリンク追従側の係数として用いる表記も採用されています。

重要なポイントは、PageRankが単に「被リンク数」を見ているのではなく、「どのページからリンクされているのか」と「リンク元が何本のリンクに分散しているのか」を同時に評価している点です。

特許においても、1本の高品質なリンクが多数の低品質なリンクよりも大きな寄与を持ち得ること、さらにPageRankが総和1となる確率分布として解釈できることが明示されています。

この式の直感も比較的理解しやすいものです。

たとえば、非常に重要なページが2本しか外向きリンクを持たない場合、その1本あたりが運ぶ重みは大きくなります。

一方で、重要度の低いページが100本のリンクを広く張っていても、各リンクに割り当てられる重みは小さくなります。

したがって、PageRankは単純な「被リンク数による多数決」ではなく、「重み付きの票を再帰的に集計する仕組み」であると言えます。この点こそが、単なるリンク数のカウントと比べて、より豊かな情報を持つ理由です。

ランダムサーファーモデルとGoogle行列

PageRankの最もよく知られた解釈は、ランダムサーファー（random surfer）モデルです。

ユーザーがリンクをランダムに辿り続け、時折ランダムに別のページへ移動すると仮定します。このとき、長期的に見て「そのページに滞在している確率」がPageRankに対応します。PageRankはGoogle行列の定常分布として表現されます。

線形代数の文脈では、Google行列は一般に次のように表されます。

$G=\alpha S+(1-\alpha)E$

ここで、Sはリンク構造を表す確率行列、Eは一意な定常分布を保証するためのランク1行列です。

特許では、αはランダムジャンプ確率として約15%と説明されています。文献によって記号の置き方は異なりますが、実質的には「約85%の確率でリンクを辿り、残りの確率でランダムジャンプする」という同じモデルを指しています。

このランダムジャンプは、数学的にも実務的にも重要な役割を持ちます。

もしジャンプが存在しなければ、相互リンクのみで構成された閉じたループや、外部へリンクが出ていない領域に重みが不自然に集中する可能性があります。特許でも、この減衰の導入がそのような偏りを防ぐために重要であると説明されています。

また、実際のWebには、画像ファイルやPDF、アクセス制限されたページ、未クロールのページなど、外向きリンクを持たないページが多数存在します。

これらはdangling nodesと呼ばれ、行列としてはゼロ行を生むため、そのままでは確率過程が成立しません。

IpsenとSeleeは、このようなdangling nodesをまとめて処理するlumpingという手法により、元のpower methodと同等の収束率を維持しながら計算を高速化できることを示しています。

このように、PageRankは単なる一つの数式ではなく、数値線形代数および大規模計算の問題としても捉えられるものです。

PageRankがSEOで画期的であった理由

PageRankの価値は、単独の数式に閉じるものではありません。

ラリー・ペイジとセルゲイ・ブリンは、Googleの高精度検索であるSEOを支える二つの重要な機能として、リンク構造に基づく品質ランキングであるPageRankと、リンクを検索結果の改善に活用する仕組みを並列に説明しています。

さらに彼らは、アンカーテキストをリンク元ページだけでなくリンク先ページにも関連付けました。

これにより、リンク先ページ自身の本文が乏しい場合や、非テキストに近いリソースであっても、外部から与えられた言語情報を手掛かりに検索できるようになりました。

初期のGoogleは、PageRank、アンカーテキスト、近接性、その他の情報を組み合わせてSEOのランキングを構築しており、当初からPageRank単独に依存していたわけではありません。

ここで比較対象として重要なのがHITSです。

ジョン・クラインバーグによって提案されたHITSは、広いトピックに対して authoritative pages（権威ページ）とhub pages（ハブページ）の相互強化関係を見つけるアルゴリズムです。

テキスト検索の結果からroot setを抽出し、それを拡張した局所グラフ上でauthorityとhubを同時に算出します。

つまり、HITSは本質的にクエリ依存（query-dependent）な手法です。

一方で、PageRankはWeb全体、あるいは大規模なクロール全体に対して事前に計算されるグローバルな重要度ベクトルであり、クエリ非依存（query-independent）な事前分布として扱いやすい特徴があります。

この違いは、SEOの情報検索システムの設計においても極めて重要です。

HITSはクエリごとに局所構造を抽出するのに適しているのに対し、PageRankは検索時に毎回再計算する必要がないグローバルな事前情報として組み込みやすいという特性を持っています。

PageRankの派生と防御

PageRankの古典的な弱点は、グローバルな重要度指標であるがゆえに、クエリ文脈や個人文脈を直接扱いにくい点にありました。

ただし、原論文の段階でラリー・ペイジとセルゲイ・ブリンは、ランダムジャンプを特定のページやページ群に偏らせる拡張に言及しており、これによってパーソナライズが可能になるだけでなく、意図的な操作を困難にする効果も期待できると述べています。

その後、タヒル・ハベリワラは、Open Directory Projectのトピックを用いて複数の偏ったPageRankベクトルをオフラインで計算し、クエリ時に文脈に応じて重み付けするTopic-Sensitive PageRankを提案しました。

さらに比較研究において、この枠組みは個人化そのものというよりも、クエリ文脈やトピックに応じてランキングを調整するための粗い基盤として有効であること、より細かな個人化を実現するにはジェイ・イェーとジェニファー・ウィドムによるModular PageRankのような大規模なパーソナライズドPageRankベクトル群が必要であることが整理されています。

もう一つの重要な問題がリンクスパムです。

ゾルタン・ギョンギらによるTrustRankは、「良質なページは悪質なページにあまりリンクしない」という仮定、すなわちgood setの近似的な隔離を出発点とし、少数のシードページを人手で評価し、そこから信頼を伝播させることでスパムを抑制しようとする手法です。

これは、PageRank型のリンク解析が、敵対的（adversarial）な環境においてはそのままでは十分に機能しない可能性があることを示す代表的な例です。

SEOにおいても、SpamBrainを含む複数のスパム検出システムが用いられており、過去のPenguin系の仕組みもコアシステムへと統合されています。

このように、現代のリンク解析は、単なる重要度の推定にとどまらず、スパム防御と不可分の一体的な問題として扱われています。

SEOにおけるPageRank

Googleは、SEOの検索順位が多数の要因やシグナルによって構成されていること、ランキングシステムはページ単位で動作しつつサイト全体のシグナル（site-wide signals）も併用していること、そしてPageRankが依然としてリンク分析システムの一つとしてコアランキングシステムに含まれていることを説明しています。

また同様に、Neural Matchingがクエリとページの概念表現を対応付け、RankBrainが語と概念の関係を理解し、SpamBrainなどのスパム検出システムが有害な振る舞いを抑制していることも示されています。

したがって、SEOにおけるPageRankの理解には、「SEOではPageRankは依然として有効であるが、PageRankだけでSEOの検索順位が決まるわけではない」という二重の認識が必要です。

この点を情報検索の観点から言い換えると、PageRankは意味的な関連性を直接評価するものではなく、リンクグラフ上における中心性や権威性の一部を表す指標です。

Googleの「How Search Works」でも、品質判断の要因の一つとして、「他の有力なウェブサイトがそのコンテンツにリンクまたは参照しているかどうか」が挙げられています。

一方で、関連性そのものの評価には、クエリ語、コンテンツ、文脈、ユーザー設定、さらには各種AIシステムが関与します。

したがって、Neural Matchingは「何について書かれているか」という意味理解に強く、PageRankは「Web全体の中でどの位置にあるか」という構造的な評価に強いと整理すると理解しやすくなります。

この両者は代替関係ではなく、相互に補完し合う関係にあります。

PageRankをSEOでどう活かすか

PageRankをSEOに応用する際に最も重要なのは、「内部リンクをどのように設計するか」です。

Googleは、リンクはページの関連性（relevance）を判断するシグナルであると同時に、新しいページをクロールするための手掛かりでもあると説明しています。

また、重要なページをホームページから数クリック以内に配置し、検索ボックスやプルダウンに依存せず、テキストリンクで辿れる構造を構築することが推奨されています。さらに、descriptive anchor textはユーザーだけでなく検索エンジンにとっても内容理解を助ける要素です。

つまり、PageRankの観点から見たSEOの内部施策とは、特別なテクニックではなく、到達可能性、適切なリンク密度、そして意味のある導線を整備することにあります。

外部リンクや属性の扱いについても誤解が生じやすい部分です。

Googleは rel=”sponsored”、rel=”ugc”、rel=”nofollow” といった属性を導入し、これらをリンク解析におけるヒント（hints）として扱うと説明しています。

特に、広告や対価を伴うリンクについては、sponsoredまたはnofollowで示すことが推奨されています。

これは、PageRankを操作するための技術的な話ではなく、「そのリンクが編集上の推薦なのか、広告なのか、ユーザー生成コンテンツなのか」を検索エンジンに正しく伝えるためのものです。

SEOの実務においては、リンクを単に増やすことよりも、リンクの意味を明確にし、編集的に正当なリンクを重視する姿勢が求められています。

その対極にあるのがスパム行為です。

Googleのspam policiesでは、SEOの検索順位を操作する目的でhidden links、hidden text、keyword stuffing、cloaking、sneaky redirectsなどを行うことが明確に禁止されており、違反した場合には順位の低下や検索結果からの除外といった措置が取られる可能性があります。

また、SEOで有効とされている内部リンクについては、内部nofollowによるPageRank sculptingに時間を費やすよりも、ユーザーにとって価値のある新鮮で魅力的なコンテンツと、健全なリンク設計に注力すべきであると述べられています。

つまり、PageRankを理解することと、PageRankを操作しようとすることは、全く別の問題であると言えます。

PageRankについて誤解されやすいポイント

第一に、PageRankはSEOの検索順位そのものではありません。

Googleは現在のランキングを「多数の要因とシグナル」に基づく自動システムであると説明しており、2011年のSearch Central Blogにおいても、PageRankはかつてGoogleを特徴づける重要な要素であったものの、すでにより大きなシステムの一部となっており、ランキングを決定する唯一の要因ではないと明言されています。

したがって、PageRankをSEOの検索順位のすべてを説明する変数と考えるのは、SEOの理解としては不正確です。

第二に、PageRankは単なる被リンク数ではありません。

特許では、高い評価を受けているページからの1本のリンクが、評価の低い多数のページからのリンクよりも大きな影響を持つ可能性があると説明されています。

第三に、PageRankは厳密にはページ単位の指標です。

GoogleもSEOのランキングシステムがページ単位で動作しつつ、サイト全体のシグナルは補助的に利用されると説明しています。

SEOの実務上は「サイト全体の強さ」として扱われることもありますが、それはPageRankの厳密な定義とは異なります。

第四に、PageRankを事業KPIとして設定するのは適切とは言えません。

Googleは2011年の時点で、公開されるPageRankが内部で使用される値とは異なる可能性があること、そして本来注目すべき指標はコンバージョン率、直帰率、クリック率（CTR）など、事業成果に直接結びつく指標であると述べています。

経営者のためのPageRankの考え方と整理

経営上もっとも自然な立場は、PageRankをクエリ非依存（query-independent）なグラフ上の事前分布として捉え、語彙的関連性や意味的関連性と組み合わせて利用することです。

タヒル・ハベリワラの文脈では、検索システムは転置インデックス（inverted text index）と補助的なランキングベクトル（auxiliary ranking vectors）を併用し、その一例としてトピックごとのPageRankベクトルをクエリ時に参照する仕組みが提案されています。

これは、PageRankが「検索のすべて」ではなく、「検索の一部として非常に扱いやすい数値的特徴量」であることを端的に示しています。

SEOのNeural MatchingやRankBrainを前提とした場合でも、この整理は依然として有効です。

PageRankは意味的なマッチング（semantic matching）を置き換えるものではなく、意味的に適合した候補の中から、どのページがWeb上でより強い編集的支持を受けているかを判断するための補助的な指標として機能します。

SEOの実装や評価においては、PageRankの効果を単純に「権威性」の効果として断定しないことが重要です。

リンクグラフの抽出精度、クロールの到達性、アンカーテキスト、テンプレート変更、スパム抑制、noindexやrobotsによる制御など、周辺要因がPageRankの見え方に大きく影響するためです。

特に、Googleが、ページ単位のシグナル、サイト全体のシグナル、リンク解析、AIシステム、スパム検出を同時に用いていると明言している以上、単一の要因でSEOの順位変動を説明しようとする姿勢は、経営的にも慎重であるべきです。

自社サイト内のリンク構造に対してPageRankを計算し、孤立ページや接続の弱いページを特定することは有益ですが、それはWeb全体のリンクグラフ上で動作する検索エンジンのPageRankとは前提条件が異なる点を明確に区別する必要があります。

PageRankは、リンクを単なる票として数えるだけの素朴な人気度指標ではありません。

重要なページからの支持を再帰的に伝播させ、ランダムサーファーモデルの定常分布として定式化し、巨大なグラフ上でも計算可能な形に落とし込んだ、情報検索の歴史において極めて洗練されたアイデアです。そしてその核心は、現在においてもなお有効に機能しています。

Googleは、PageRankをコアランキングシステムの一部として位置付けながら、Neural Matching、RankBrain、スパム検出、品質シグナルなどを組み合わせてSEOを構成しています。

SEOにおいて求められる姿勢は、PageRankを過度に神秘化して過大評価することでも、古い概念として切り捨てることでもありません。

PageRankを、リンク構造によって生まれるグローバルな重要度の推定手法として正しく理解し、それをユーザー価値、意味理解、スパム耐性、内部リンク設計といった文脈の中で統合的に活用することが重要です。

PageRank

PageRankとは

リンク解析に基づく重要度推定の理論、派生、そしてSEOにおけるPageRankの位置づけ

PageRankの定義

ランダムサーファーモデルとGoogle行列

PageRankがSEOで画期的であった理由

PageRankの派生と防御

SEOにおけるPageRank

PageRankをSEOでどう活かすか

PageRankについて誤解されやすいポイント

経営者のためのPageRankの考え方と整理

経営コンサルティング

D‑MODEL

経営モデリング

R&D

AI 導入支援

ナレッジAI／RAG

AI 業務アプリ／オートメーション

AI マーケティング＆クリエイティブ

AI 教育・内製化

AIアプリ導入支援

AIアプリケーション

AI 広告

AI SEO

AI モード対策

AI による概要対策

クエリファンアウト対策

データ科学✖️映像

会社情報

行動指針

ニュース・お知らせ

企業・法人