PageRank
PageRank topics: link graph, authority flow, centrality, and ranking propagation in neon gradient on dark #050913. Includes operator and PR disclosure.
SCORE FLOW
LINK GRAPH
CENTRALITY
PAGERANK TOPICS
GENERAL EXPLANATION
PageRank
リンク構造と重要度伝播の仕組みを、先進的なグラフ表現で可視化
A general overview of PageRank concepts and link-based ranking flow.
LINKS → FLOW → CENTRALITY → AUTHORITY → RANK
運営・表示に関する注記
運営:株式会社Dプロフェッションズ
広告(PR)を掲載しています。広告は編集内容や推奨を意味しません。
PageRank
PageRankとは
PageRank とは、Webページ同士のリンク構造から、そのページの重要度を数理的に推定するアルゴリズム です。
Google の初期検索エンジンでは、リンク構造を使って各ページの「quality ranking」を計算する中心技術として使われました。
直感的には、「重要なページからリンクされるページは重要である」という考え方です。しかも単なる被リンク数ではなく、リンク元の重要度とリンク元が何本の外向きリンクを持つか まで考慮します。
原論文では、PageRank はリンクをすべて同じ重みで数えるのではなく、リンク元ページの重みを分配する形で定義され、通常は減衰係数 d = 0.85 d=0.85 を使うと説明されています。別の言い方をすると、PageRank は 「ランダムにリンクをたどる閲覧者が、長期的にどのページに到達しやすいか」を表す確率モデルでもあります。原論文では、ランダムサーファーが時々別のページへ飛ぶモデルとして説明され、各ページの PageRank は Web 全体で和が 1 になる確率分布として扱われます。
PageRank の数式は、まず原論文の書き方 と、いま研究や実装でよく使う正規化形 を分けて押さえると分かりやすいです。
原論文では、ページ A A に T 1 , … , T n T_1,\dots,T_n がリンクしているとき、
P R ( A ) = ( 1 − d ) + d ( P R ( T 1 ) C ( T 1 ) + ⋯ + P R ( T n ) C ( T n ) ) PR(A)=(1-d)+d\left(\frac{PR(T_1)}{C(T_1)}+\cdots+\frac{PR(T_n)}{C(T_n)}\right)
と書かれます。
ここで C ( T i ) C(T_i) はページ T i T_i の外向きリンク数、d d は damping factor で、原論文では通常 0.85 0.85 を使うとされています。また同論文は、PageRank は全ページで和が 1 の確率分布であり、反復法で計算でき、正規化リンク行列の主固有ベクトルに対応すると説明しています。
一方、数理的に厳密な説明や実装では、ふつう次の正規化形 で書きます。
π i = 1 − d N + d ∑ j → i π j L j \pi_i=\frac{1-d}{N}+d\sum_{j\to i}\frac{\pi_j}{L_j}
ここで N N は総ページ数、L j L_j はページ j j の外向きリンク数です。
原論文の簡潔な書き方とは別に、PageRank を「和が 1 の確率分布」として扱うと、この ( 1 − d ) / N (1-d)/N (1−d)/N の形で理解するのが自然です。
この式は、行列表現では
G = d S + ( 1 − d ) E , π T G = π T , ∥ π ∥ 1 = 1 G=dS+(1-d)E,\qquad \pi^{\mathsf T}G=\pi^{\mathsf T},\qquad \|\pi\|_1=1
と書けます。
S S はリンク構造を表す確率行列、E E はランダムジャンプを表す行列です。
一様ジャンプなら E = ( 1 / N ) e e T E=(1/N)ee^{\mathsf T} なので、これを成分ごとに展開すると上のスカラー式になります。つまり、PageRank は Google 行列の定常分布 です。
式の意味は単純です。ページ i i の PageRank は、i にリンクしている各ページの PageRank を、そのページの外向きリンク数で割って受け取った総和 に、ランダムジャンプ項を足したものです。したがって、重要なページからの 1 本のリンクは、重要でないページからの多数のリンクより強く効くことがあります。
実装ではもう 1 点だけ注意があります。外向きリンクが 0 本のページは dangling nodes と呼ばれ、そのままだと確率行列の行が 0 になるので、通常はジャンプ分布で補って S S を確率行列にします。
リンク解析に基づく重要度推定の理論、派生、そしてSEOにおけるPageRankの位置づけ
PageRankは、Webをページとハイパーリンクから構成される有向グラフとして捉え、各ページの重要度をリンク構造から推定する手法です。
Googleの初期の検索システムでは、リンク構造から品質ランキングを算出するPageRankと、リンクテキストを活用する仕組みがSEO の中核として位置付けられていました。
Googleは現在も、ページ間のリンク関係を理解する複数のシステムの一つとしてPageRankを挙げており、その仕組みは大きく進化しているものの、コアランキングシステムの一部として機能し続けていると説明していますが、検索順位は同時に、多数のシグナルやNeural Matching、RankBrain、スパム検出システムなどを含む複合的な仕組みによって決定されています。
したがって、現代におけるPageRankの理解としては、「検索順位を一つの式で決定する唯一の要因」としてではなく、「ページ単位のリンクグラフに基づく事前的な重要度、あるいはグローバルな中心性指標」として捉えるのが最も適切です。
LINK GRAPH CENTRALITY
PageRank
リンク構造に基づくページ重要度の推定 — ランダムサーファーモデルによる確率的解釈
1
Webの有向グラフモデルと遷移確率
有向グラフ G = (V, E)
A
0.368
B
0.224
C
0.168
D
0.118
E
0.122
1/2
1/1
1/1
1/2
1/2
1/2
1/2
遷移確率行列 M
M(i,j) = ページ j から i へ遷移する確率
A
B
C
D
E
A
B
C
D
E
0
1/2
1
1
1/2
1/2
0
0
0
0
0
1/2
0
0
0
0
0
0
0
1/2
1/2
0
0
0
0
行 A の非零値が多い → Aへの流入が大きい
→ 定常状態での滞在確率(= PR値)が高い
⟷
2
ランダムサーファーモデルと定常分布
仮想的なサーファーがリンクをたどり続けたとき、各ページに滞在する確率がPageRank値に収束する
π = d · M · π + (1 − d) / N · e
π = 定常分布ベクトル(= PR値) d = 0.85(ダンピングファクター) e = 全1ベクトル
ランダムウォークの挙動
t=0
t=1
t=2
t=3
t=4
t=5
…
t→∞
A
B
C
D
E
0.368
0.224
0.168
0.118
0.122
確率 d でリンクをたどり、確率 (1−d) でランダムにジャンプ → 滞在確率が PR 値に収束
3
Google検索におけるPageRankの位置づけの変遷
1998
2010s
現在
初期 Google 検索
PageRank(中核)
アンカーテキスト活用
主に2つの仕組みが支配的
機械学習導入期
RankBrain(2015)
Hummingbird
シグナルの多様化が進行
複合シグナル時代
Neural matching
MUM / BERT
PageRankは一要素に
4
現代の検索順位決定 — 複合シグナルの統合
PageRankはコアランキングの一部として存続するが、最終順位は多数のシステムの統合結果
最終検索順位
PageRank
Neural matching
RankBrain
スパム検出システム
コンテンツ品質
ユーザー体験シグナル
E-E-A-T 評価
その他多数
5
現代におけるPageRankの正確な理解
✕ 不正確な理解
「検索順位を一発で決める
唯一の式」
○ 正確な理解
「ページ単位のリンクグラフに基づく
事前重要度(グローバルな中心性指標)」
→
PageRankの本質
ランダムウォークの定常分布として定義されるグローバルな中心性指標
PageRankの出発点は単純でありながら非常に強力です。
Web上のリンクは単なるナビゲーション手段ではなく、他のページへの注意の配分、すなわち一種の引用行為として解釈することができます。
ラリー・ペイジとセルゲイ・ブリンは、Webのリンクグラフを用いることで、ページの「引用としての重要度(citation importance)」を機械的かつ客観的に推定できると考えました。
また特許文献においても、重要な文書からの引用は、重要でない文書からの引用よりも高く評価されるべきであると述べています。
PageRankが革新的であった点は、単に被リンク数を数えるだけの単純な人気度ではなく、「重要なページからのリンクほど重みが大きい」という再帰的な定義 を導入したことにあります。
この考え方は、SEO において本質的です。
PageRankは過去の遺物ではなく、SEO の中で再解釈され続けている古典的な理論であると言えます。
PageRank
再帰的重要度の定義と現代的意義
1
リンクは引用行為である
学術論文が先行研究を引用するように、Web ページは他ページをリンクで「引用」する
学術論文の引用
論文 A
論文 B
引用
参考文献リストに記載 → 引用関係が成立
多く引用される論文 = 影響力が大きい
被引用数 = 論文の重要度指標
Web のハイパーリンク
リンク
ページ A
ページ B
リンク
A が B にリンク → A は B を「引用」している
多くリンクされるページ = 重要度が高い
被リンク数 ≈ ページの citation importance
=
同一構造
Brin & Page の洞察:Web のリンクグラフから citation importance を機械的に推定できる
特許文献:「重要な文書からの引用は重要でない文書からの引用より重く扱うべき」
2
素朴な被リンク数カウントの限界
被リンク本数だけを数える方式では、リンク元の質を区別できない
対象
ページ P
a
b
c
d
e
被リンク数 = 5 → Score(P) = 5
全てのリンク元を同等に扱う → リンク元が政府機関でもスパムサイトでも同じ「1票」
3
PageRank の革新 — 再帰的な重要度定義
「重要なページからのリンクほど重い」→ 重要度は再帰的に定義され、反復計算で収束する
PR(p) = (1 − d) + d × Σ PR(q) / L(q)
q∈B(p)
d ≈ 0.85(ダンピングファクター) B(p) = p への被リンク集合 L(q) = q の発リンク数
反復計算による収束プロセス
反復 0(初期値)
全ページに均等な PR を配分
A
1.0
B
1.0
C
1.0
D
1.0
→
反復
反復 1
リンク構造に応じて PR が変動開始
A
1.43
B
0.85
C
0.85
D
0.58
→
反復
収束(反復 n)
PR 値が安定 → 最終スコア
A
PR = 1.88
B
0.77
C
0.77
D
0.41
C が A にリンク(引用)しているため、A は多くの PR を受け取る → A の PR が最大
D は B からのみリンクされ、B 自身の PR も高くない → D の PR が最小
4
PR の分配 — 発リンク数による希釈
ページ q が自身の PR を発リンク先に均等配分する → 発リンクが多いほど 1 本あたりの価値は薄まる
Q₁
PR = 8.0
発リンク数 = 2
x
y
4.0
4.0
8.0 ÷ 2 = 各 4.0 を配分
Q₂
PR = 8.0
発リンク数 = 5
各 1.6
8.0 ÷ 5 = 各 1.6 を配分
同じ PR = 8.0 でも、発リンクが少ないページからの 1 本は、発リンクが多いページからの 1 本より価値が高い
5
ダンピングファクター d ≈ 0.85
ランダムサーファーが次のリンクをたどる確率 = 85%、ランダムに別のページへ移動する確率 = 15%
人
リンク先へ
85%
d = 0.85
任意のページへ
15%
1 − d
d はリンク構造への
依存度を調整する係数
6
現代検索のコアランキングにおける PageRank の位置づけ
過去の遺物ではなく、現代の検索で再解釈された古典として機能し続けている
Google コアランキングシステム(複数のシステムの統合)
コンテンツ理解
テキスト・意味解析
クエリ理解
検索意図の解釈
PageRank
リンク関係の理解
再帰的重要度
ユーザー体験
速度・利便性
その他
多数の要因
統合スコア → 検索結果の順位決定
「ページ間のリンク関係を理解する複数のシステムの一つ」— Google の公式説明
PageRankの定義
PageRankでは、各ページをノード 、リンクを有向辺 として表現します。
あるページ i に対するPageRankは、i を指すページの集合 \(B_i\) と、それぞれのリンク元ページ j の外向きリンク数\( L(j)\) を用いて、一般的に次のように表されます。
P R ( i ) = α N + ( 1 − α ) ∑ j ∈ B i P R ( j ) L ( j ) PR(i)=\frac{\alpha}{N}+(1-\alpha)\sum_{j\in B_i}\frac{PR(j)}{L(j)}
ここで、N は総ページ数、α はランダムジャンプ確率を表します。
多くの教科書や解説では、これと等価な形として d = 0.85 をリンク追従側の係数として用いる表記も採用されています。
重要なポイントは、PageRankが単に「被リンク数」を見ているのではなく、「どのページからリンクされているのか」と「リンク元が何本のリンクに分散しているのか」を同時に評価している 点です。
特許においても、1本の高品質なリンクが多数の低品質なリンクよりも大きな寄与を持ち得る こと、さらにPageRankが総和1となる確率分布として解釈できる ことが明示されています。
この式の直感も比較的理解しやすいものです。
たとえば、非常に重要なページが2本しか外向きリンクを持たない場合、その1本あたりが運ぶ重みは大きくなります。
一方で、重要度の低いページが100本のリンクを広く張っていても、各リンクに割り当てられる重みは小さくなります。
したがって、PageRankは単純な「被リンク数による多数決」ではなく、「重み付きの票を再帰的に集計する仕組み」であると言えます。この点こそが、単なるリンク数のカウントと比べて、より豊かな情報を持つ理由です。
PageRank の定義
各ページをノード、リンクを有向辺とする有向グラフ上の確率分布
01
数式定義
基本形(α 表記)
PR
(i)
=
α
N
+ (1−
α
)
Σ
j∈Bᵢ
PR(j)
L(j)
α ≈ 0.15(ランダムジャンプ確率)
等価表記(d = 0.85)
PR
(i)
=
(1−
d
)
N
+
d
Σ
j∈Bᵢ
PR(j)
L(j)
d = 1 − α = 0.85(リンク追従確率)
N
= 総ページ数
Bᵢ
= ページ i への被リンク集合
L(j)
= ページ j の外向きリンク数
02
ランダムサーファーモデル ― 数式の2項が意味するもの
現在の
ページ
確率 1−α = 85%
リンク追従
現在のページの外向きリンクから
1本を選んで遷移する
↓ 数式の第2項に対応
確率 α = 15%
ランダムジャンプ
リンク構造を無視して
全 N ページから均一に選ぶ
↓ 数式の第1項 α/N に対応
(1−α)Σ…
α / N
03
有向グラフ上の重み伝播
k
PR=0.25
再帰
L=3
j₁
PR = 0.38
L(j₁) = 2
0.38 / 2 = 0.190
j₂
PR = 0.15
L(j₂) = 5
0.15 / 5 = 0.030
j₃
PR = 0.02
L(j₃) = 100
…他95本
0.02 / 100 = 0.0002
i
対象ページ
PR(i) の構成
α/N
…均一項
+0.190
← j₁
+0.030
← j₂
Bᵢ
04
核心 ― リンク1本が運ぶ重みの差
重要ページ ― 外向きリンク2本
0.38
L=2
寄与 0.190 / 本
低重要ページ ― 外向きリンク100本
0.02
L=100
…他93本
寄与 0.0002 / 本
1本あたりの寄与差:約 950 倍
05
確率分布としての解釈
全ページの PageRank 総和 = 1.00(ランダムサーファーの到達確率)
j₁ : 0.38
j₂ : 0.15
i : 0.18
他ページ : 0.29
Σ = 1.00
PageRank は単純な「被リンク票の多数決」ではなく、
「重み付き票の再帰的集計」
である。
― 1本の高品質リンクが多数の低品質リンクを上回る
ランダムサーファーモデルとGoogle行列
PageRankの最もよく知られた解釈は、ランダムサーファー(random surfer)モデル です。
ユーザーがリンクをランダムに辿り続け、時折ランダムに別のページへ移動すると仮定します。このとき、長期的に見て「そのページに滞在している確率」 がPageRank に対応します。PageRankはGoogle行列の定常分布 として表現されます。
線形代数の文脈では、Google行列は一般に次のように表されます。
G = α S + ( 1 − α ) E G=\alpha S+(1-\alpha)E
ここで、Sはリンク構造を表す確率行列、Eは一意な定常分布を保証するためのランク1行列です。
特許では、αはランダムジャンプ確率として約15%と説明されています。文献によって記号の置き方は異なりますが、実質的には「約85%の確率でリンクを辿り、残りの確率でランダムジャンプする」という同じモデルを指しています。
このランダムジャンプは、数学的にも実務的にも重要な役割を持ちます。
もしジャンプが存在しなければ、相互リンクのみで構成された閉じたループや、外部へリンクが出ていない領域に重みが不自然に集中する可能性があります。特許でも、この減衰 の導入がそのような偏りを防ぐために重要であると説明されています。
また、実際のWebには、画像ファイルやPDF、アクセス制限されたページ、未クロールのページなど、外向きリンクを持たないページが多数存在します。
これらはdangling nodes と呼ばれ、行列としてはゼロ行を生むため、そのままでは確率過程が成立しません。
IpsenとSeleeは、このようなdangling nodesをまとめて処理するlumpingという手法により、元のpower methodと同等の収束率を維持しながら計算を高速化できることを示しています。
このように、PageRankは単なる一つの数式ではなく、数値線形代数および大規模計算の問題としても捉えられるものです。
ランダムサーファーモデルとGoogle行列
PageRank を定義する確率過程の構造 ── 定常分布・ダングリングノード・べき乗法
ランダムサーファーモデル
リンク遷移(確率 1−α ≈ 85%)
現在のページの外向きリンクから
1本を等確率で選んで遷移する
ランダムジャンプ(確率 α ≈ 15%)
リンクを無視し、全ページの中から
1つを均等確率で無作為に選んで飛ぶ
長期極限での各ページ滞在確率 = PageRank = Google 行列 G の定常分布(主固有ベクトル)
Web グラフと遷移構造の例
A → B → C → A ループ構造(重み集中のリスク)
ランダムジャンプ:全 N ページへ等確率 1/N で遷移
ページ
A
サーファー
ページ
B
ページ
C
ページ
D
ページ
E
ページ
F
dangling node
外向きリンク = 0
リンク遷移 ≈ 85%
ランダムジャンプ ≈ 15%
ダングリングノード
サーファー位置
Google 行列の定義
G
=
α
S
+
(1 −
α
)
E
S :確率行列
リンク構造の行列表現
各行 i は、ページ i の
外向きリンク先に等確率分配
行和 = 1(dangling 行を除く)
α ≈ 0.15
ランダムジャンプ確率
特許文献で約 15% と記載
(1−α ≈ 85% でリンク遷移)
文献により記号の置き方は異なる
E :ランク 1 行列
全要素が 1/N の均等行列
G を既約・非周期にし
一意な定常分布を保証
Perron-Frobenius 定理の適用条件
確率行列 S の構造(上記グラフに対応)
各行はリンク先へ等確率で分配。F 行は外向きリンクがないためゼロ行(確率過程が破綻)
A
B
C
D
E
F
A
0
1/2
0
1/2
0
0
B, D へ 1/2
B
0
0
1/2
1/2
0
0
C, D へ 1/2
C
1
0
0
0
0
0
A へ 1
D
0
0
0
0
1
0
E へ 1
E
0
0
0
0
0
1
F へ 1
F
0
0
0
0
0
0
ゼロ行(破綻)
S =
ランダムジャンプ(α)が解決する 2 つの構造的問題
問題① ループ内の重み集中
A
B
C
重み集中
X
到達不能
閉じた相互リンク構造では
重みがループ内に不自然に集中
→ α で全ノードへ重みを分散
問題② ダングリングノード
D
F
出口なし
S[F] = [ 0 0 0 0 0 0 ]
行和 = 0 → 確率の公理に違反
実例:画像 / PDF / 保護ページ / 未クロール
E 行列で 1/N 均等補正が必要
→ lumping で高速収束(Ipsen-Selee)
PageRank は単なる一式ではなく、数値線形代数と大規模計算の問題である
PageRankがSEOで画期的であった理由
PageRankの価値は、単独の数式に閉じるものではありません。
ラリー・ペイジとセルゲイ・ブリンは、Googleの高精度検索であるSEO を支える二つの重要な機能として、リンク構造に基づく品質ランキングであるPageRankと、リンクを検索結果の改善に活用する仕組みを並列に説明しています。
さらに彼らは、アンカーテキストをリンク元ページだけでなくリンク先ページにも関連付けました。
これにより、リンク先ページ自身の本文が乏しい場合や、非テキストに近いリソースであっても、外部から与えられた言語情報を手掛かりに検索できるようになりました。
初期のGoogleは、PageRank、アンカーテキスト、近接性、その他の情報を組み合わせてSEO のランキングを構築しており、当初からPageRank単独に依存していたわけではありません。
ここで比較対象として重要なのがHITSです。
ジョン・クラインバーグによって提案されたHITSは、広いトピックに対して authoritative pages(権威ページ)とhub pages(ハブページ)の相互強化関係を見つけるアルゴリズムです。
テキスト検索の結果からroot setを抽出し、それを拡張した局所グラフ上でauthorityとhubを同時に算出します。
つまり、HITS は本質的にクエリ依存(query-dependent) な手法です。
一方で、PageRank はWeb全体、あるいは大規模なクロール全体に対して事前に計算されるグローバルな重要度ベクトルであり、クエリ非依存(query-independent)な事前分布 として扱いやすい特徴があります。
この違いは、SEO の情報検索システムの設計においても極めて重要です。
HITS はクエリごとに局所構造を抽出する のに適しているのに対し、PageRank は検索時に毎回再計算する必要がないグローバルな事前情報として組み込みやすい という特性を持っています。
PageRankがSEO で画期的であった理由
Brin & Page (1998) の本質:単独の数式ではなく、複合検索エンジン設計の中核思想
① 初期 Google の複合ランキング設計
最初から PageRank 単独主義ではない ── 複数シグナルを融合した検索スコアリング・パイプライン
Web
コーパス
シグナル抽出
PageRank
q-independent
アンカーテキスト
近接性 (Proximity)
q-dependent
その他ヒット情報
スコア合成
f( PR(d), Anchor(d,q),
Prox(d,q), Hits(d,q) )
複合ランキングスコア
検索結果ランキング
PageRank はクエリに依存しない事前分布として、クエリ依存シグナルと組み合わされて最終スコアを形成する
② アンカーテキストによる検索可能性の拡張
複数のリンク元ページから言語情報が蓄積され、本文が乏しいページでも発見可能になる
ページ X(ニュースサイト)
「交通事故の慰謝料」
ページ Y(法律解説サイト)
「慰謝料の相場一覧」
ページ Z(個人ブログ)
「後遺障害の等級表」
アンカーテキスト
の伝搬
リンク先:ページ B
本文が乏しい
[PDF]
非テキスト資源
蓄積されたアンカーテキストインデックス
「交通事故の慰謝料」
← ページ X
「慰謝料の相場一覧」
← ページ Y
「後遺障害の等級表」
← ページ Z
ユーザーが「交通事故 慰謝料 相場」で検索
→ アンカーテキストインデックスとマッチ → 発見可能
ページ自身の本文に依存せず、外部リンクのアンカーテキストが検索手掛かりとなる ── Brin & Page の革新
蓄積されるアンカーテキストが多いほど、検索可能性は高まる
③ PageRank と HITS の計算フロー対比
グローバル事前分布(query-independent) vs クエリ依存の局所構造解析(query-dependent)
────── 時間軸 ──────
PageRank(Brin & Page, 1998)
─── クロール時(オフライン)───
── 検索時(オンライン)──
1
Web全体のリンクグラフ取得
2
べき乗法で反復計算
PR(A) = (1-d) + d × Σ PR(Tᵢ) / C(Tᵢ)
3
全ページの PR 値を保存
検索時の処理
• 保存済み PR(d) を参照(再計算不要)
• 他のクエリ依存シグナルと合成
• 最終ランキングスコアを出力
計算対象
Web 全体のリンクグラフ
クエリ依存
なし(query-independent)
再計算
クロール更新時のみ
グローバルグラフ(ノードの大きさ = PR 値)
HITS(Kleinberg, 1999)
───────── すべて検索時(オンライン)に実行 ─────────
1
クエリを
テキスト検索に投入
2
上位結果から
root set を構成
3
リンク先・元を追加し
局所グラフ (base set) 拡張
4
Authority と Hub を
反復計算で同時収束
計算対象
クエリ起点の局所グラフのみ
クエリ依存
あり(query-dependent)
再計算
クエリ毎に必要
局所グラフ上の Hub ↔ Authority 相互強化
Query
root set
拡張
base set(局所グラフ)
Hub₁
Hub₂
Auth₁
Auth₂
相互強化
Authority スコア出力
Hub スコア出力
④ 設計思想の対比と情報検索への帰結
query-independent vs query-dependent の差異が、大規模検索システムのスケーラビリティを左右する
比較項目
PageRank
HITS
クエリとの関係
query-independent
query-dependent
計算対象
Web 全体のリンクグラフ
クエリ起点の局所グラフ
計算タイミング
クロール時(オフライン事前計算)
検索時(クエリ毎にオンライン計算)
出力
全ページの重要度ベクトル
Authority / Hub スコア
システム設計上の利点
事前分布として組み込みやすい
トピック固有の権威を特定可能
結論:PageRank の設計上の優位性
PageRank は検索時に再計算不要なグローバル事前分布として、リアルタイム検索のスケーラビリティに適合する。
HITS はクエリ毎に局所グラフを構築・解析する設計のため、大規模リアルタイム検索には計算コストが高い。
Brin, S. & Page, L. (1998) “The Anatomy of a Large-Scale Hypertextual Web Search Engine”
Kleinberg, J. (1999) “Authoritative Sources in a Hyperlinked Environment”
PageRankの派生と防御
PageRankの古典的な弱点は、グローバルな重要度指標であるがゆえに、クエリ文脈や個人文脈を直接扱いにくい点にありました。
ただし、原論文の段階でラリー・ペイジとセルゲイ・ブリンは、ランダムジャンプを特定のページやページ群に偏らせる拡張 に言及しており、これによってパーソナライズ が可能になるだけでなく、意図的な操作を困難にする効果も期待できると述べています。
その後、タヒル・ハベリワラは、Open Directory Projectのトピックを用いて複数の偏ったPageRankベクトルをオフラインで計算し、クエリ時に文脈に応じて重み付けするTopic-Sensitive PageRank を提案しました。
さらに比較研究において、この枠組みは個人化そのものというよりも、クエリ文脈やトピックに応じてランキングを調整するための粗い基盤として有効であること、より細かな個人化を実現するにはジェイ・イェーとジェニファー・ウィドムによるModular PageRankのような大規模なパーソナライズドPageRankベクトル群が必要であることが整理されています。
もう一つの重要な問題がリンクスパムです。
ゾルタン・ギョンギらによるTrustRankは、「良質なページは悪質なページにあまりリンクしない」という仮定、すなわちgood setの近似的な隔離を出発点とし、少数のシードページを人手で評価し、そこから信頼を伝播させることでスパムを抑制しようとする手法です。
これは、PageRank型のリンク解析が、敵対的(adversarial)な環境においてはそのままでは十分に機能しない可能性があることを示す代表的な例です。
SEO においても、SpamBrainを含む複数のスパム検出システムが用いられており、過去のPenguin系の仕組みもコアシステムへと統合されています。
このように、現代のリンク解析は、単なる重要度の推定にとどまらず、スパム防御と不可分の一体的な問題として扱われています。
PageRankの派生と防御
PageRank (Brin & Page, 1998)
グローバル重要度の推定
ランダムサーファーモデルによるリンクグラフ上の定常分布
1998
原論文の先見
ジャンプ確率の偏り → personalization の実現 + 意図的操作への耐性向上
弱点:クエリ文脈・個人文脈を直接扱いにくい
派生:文脈適応
防御:スパム対策
Personalized PageRank
ジャンプ先を特定ページ群へ偏らせる拡張
発展
2002
Topic-Sensitive PageRank
Haveliwala (2002)
ODP 16トピック別の偏り PR ベクトルを
オフライン計算 → クエリ時に重み付け
位置づけ:個人化の粗い基底
細粒度化
Modular PageRank
Jeh & Widom
大規模個人化ベクトル群の効率的計算
adversarial 環境の課題
リンク解析はスパム操作に対して脆弱
2004
TrustRank
Gyöngyi et al. (2004)
前提:良質ページは悪質ページへリンクしない
方法:seed pages の人手評価 → trust 伝播
概念:「good set の近似的隔離」
発展
2012
Penguin系統
リンクスパム対策アルゴリズム群
統合
2018–
SpamBrain + コア統合
ML ベースの複合スパム検出
Penguin をコアランキングに統合
操作耐性
現代のリンク解析
重要度推定とスパム防御が分離不能な一体の問題
単一のリンクグラフ上で統合的に運用
文脈適応
細粒度
課題
防御
統合
SEOにおけるPageRank
Googleは、SEO の検索順位が多数の要因やシグナルによって構成されていること、ランキングシステムはページ単位で動作しつつサイト全体のシグナル(site-wide signals)も併用していること、そしてPageRankが依然としてリンク分析システムの一つとしてコアランキングシステムに含まれていることを説明しています。
また同様に、Neural Matchingがクエリとページの概念表現を対応付け、RankBrainが語と概念の関係を理解し、SpamBrainなどのスパム検出システムが有害な振る舞いを抑制していることも示されています。
したがって、SEO におけるPageRankの理解には、「SEO ではPageRankは依然として有効であるが、PageRankだけでSEO の検索順位が決まるわけではない」という二重の認識が必要です。
この点を情報検索の観点から言い換えると、PageRank は意味的な関連性を直接評価するものではなく、リンクグラフ上における中心性や権威性の一部を表す指標 です。
Googleの「How Search Works」でも、品質判断の要因の一つとして、「他の有力なウェブサイトがそのコンテンツにリンクまたは参照しているかどうか」が挙げられています。
一方で、関連性そのものの評価には、クエリ語、コンテンツ、文脈、ユーザー設定、さらには各種AIシステムが関与します。
したがって、Neural Matchingは「何について書かれているか」という意味理解に強く、PageRankは「Web全体の中でどの位置にあるか」という構造的な評価に強いと整理すると理解しやすくなります。
この両者は代替関係ではなく、相互に補完し合う関係にあります。
SEO におけるPageRank
情報検索の観点から見たSEO の Google ランキングアーキテクチャ
検索クエリ
関連性評価へ
権威性評価へ
コアランキングシステム — 多数の要因とシグナルから成る複合評価
意味的関連性の評価
「何について書かれているか」に強い
Neural matching
クエリとページの概念表現を対応付け
RankBrain
語と概念の関係を学習・理解
関連性シグナル群
クエリ語、コンテンツ、文脈、
設定、各種AIシステム
その他の関連性評価
リンクグラフ上の権威性
「Web全体のどこに位置するか」に強い
PageRank
リンク分析システムの一つ(中心性指標)
リンク参照シグナル
他の著名サイトがコンテンツに
リンクまたは参照しているか
サイト全体シグナル
ページ単位+site-wide signals の併用
その他のリンク分析
補完関係(代替ではない)
両軸で検索品質を支える
ページ単位の総合ランキングスコア
SpamBrain — スパム検出・品質保護
有害な振る舞いを検出・抑制
検索結果のランキング表示
現代の PageRank 理解に必要な二重の認識
PageRank は
死んでいない
しかし
それだけでは全くない
出典: Google “How Search Works” ガイド
PageRank は意味的関連性ではなく、リンクグラフ上の中心性と権威性の一部を表す
PageRankをSEOでどう活かすか
PageRankをSEO に応用する際に最も重要なのは、「内部リンクをどのように設計するか」です。
Googleは、リンクはページの関連性(relevance)を判断するシグナルであると同時に、新しいページをクロールするための手掛かりでもあると説明しています。
また、重要なページをホームページから数クリック以内に配置し、検索ボックスやプルダウンに依存せず、テキストリンクで辿れる構造を構築することが推奨されています。さらに、descriptive anchor textはユーザーだけでなく検索エンジンにとっても内容理解を助ける要素です。
つまり、PageRankの観点から見たSEO の内部施策 とは、特別なテクニックではなく、到達可能性、適切なリンク密度、そして意味のある導線を整備すること にあります。
外部リンクや属性の扱いについても誤解が生じやすい部分です。
Googleは rel=”sponsored”、rel=”ugc”、rel=”nofollow” といった属性を導入し、これらをリンク解析におけるヒント(hints)として扱うと説明しています。
特に、広告や対価を伴うリンクについては、sponsoredまたはnofollowで示すことが推奨されています。
これは、PageRankを操作するための技術的な話ではなく、「そのリンクが編集上の推薦なのか、広告なのか、ユーザー生成コンテンツなのか」を検索エンジンに正しく伝えるためのものです。
SEO の実務においては、リンクを単に増やすことよりも、リンクの意味を明確にし、編集的に正当なリンクを重視する 姿勢が求められています。
その対極にあるのがスパム行為です。
Googleのspam policiesでは、SEO の検索順位を操作する目的でhidden links、hidden text、keyword stuffing、cloaking、sneaky redirectsなどを行うことが明確に禁止されており、違反した場合には順位の低下や検索結果からの除外といった措置が取られる可能性があります。
また、SEO で有効とされている内部リンクについては、内部nofollowによるPageRank sculptingに時間を費やすよりも、ユーザーにとって価値のある新鮮で魅力的なコンテンツと、健全なリンク設計に注力すべきであると述べられています。
つまり、PageRankを理解することと、PageRankを操作しようとすることは、全く別の問題であると言えます。
PageRankをSEO でどう活かすか
PageRank の理論を実務に落とし込む際の構造・属性・禁止事項
❶ 内部リンク設計
最重要
PageRank を SEO に応用する際、もっとも重要なのは内部リンクの設計である
リンクの 2 つの役割 — Google Search Central
relevance 判断シグナル
リンク先の内容と関連性を評価
クロールの手掛かり
新しいページの発見・到達に使用
公式ブログが推奨するリンク構造
Home
カテゴリ A
カテゴリ B
カテゴリ C
← 0 クリック
← 1 クリック
検索ボックスやプルダウンに依存せず、テキストリンクで辿れる構造
3 つの設計原則
到達可能性
重要ページをホームから
数クリック以内に保つ
click depth の最適化
リンク密度
テキストリンクで辿れる
構造を網羅的に構築
crawlable な導線を確保
意味のある導線
記述的アンカーテキストで
ユーザーと検索エンジン双方の
内容理解を助ける
到達可能性 × リンク密度 × 意味のある導線 を整えることが内部施策の本質
Search Central 内部リンク記事(現在も relevant と明記)
内部 nofollow による PageRank sculpting より、コンテンツと健全なリンク設計に注力すべき
正しい意味の伝達
操作の意図
❷ 外部リンクと rel 属性
hints として扱われる
sponsored
広告・対価を伴うリンクに付与
ugc
ユーザー生成コンテンツのリンク
nofollow
その他の非推薦リンク
本質
編集上の推薦か、広告か、
UGC かを正しく伝える
変遷
リンクを増やす技術 → 意味を明示する姿勢
→
正当な評価の獲得
❸ スパムポリシー
Google が明示的に禁止する行為
hidden links
hidden text
keyword stuffing
cloaking
sneaky redirects
etc.
内部 nofollow による
PageRank sculpting も非推奨
検索順位を操作する意図
順位低下 / 検索結果からの除外
Search Central 推奨
sculpting より、ユーザーを満足
させるコンテンツに注力すべき
ペナルティの対象
vs
PageRank を理解すること
≠ PageRank を弄ろうとすること
理論の理解は正しい設計判断の基盤となり、操作の意図はポリシー違反となる
内部リンク設計
属性による意味明示
│
操作・スパム
境界
出典:Google Search Central / spam policies / link architecture blog / rel 属性公式ドキュメント
v3
PageRank について誤解されやすいポイント
第一に、PageRankはSEO の検索順位そのものではありません。
Googleは現在のランキングを「多数の要因とシグナル」に基づく自動システムであると説明しており、2011年のSearch Central Blogにおいても、PageRankはかつてGoogleを特徴づける重要な要素であったものの、すでにより大きなシステムの一部となっており、ランキングを決定する唯一の要因ではないと明言されています。
したがって、PageRankをSEO の検索順位のすべてを説明する変数と考えるのは、SEO の理解としては不正確です。
第二に、PageRankは単なる被リンク数ではありません。
特許では、高い評価を受けているページからの1本のリンクが、評価の低い多数のページからのリンクよりも大きな影響を持つ可能性があると説明されています。
第三に、PageRankは厳密にはページ単位 の指標です。
GoogleもSEO のランキングシステムがページ単位で動作 しつつ、サイト全体のシグナルは補助的に利用される と説明しています。
SEO の実務上は「サイト全体の強さ」として扱われることもありますが、それはPageRankの厳密な定義とは異なります。
第四に、PageRankを事業KPIとして設定するのは適切とは言えません。
Googleは2011年の時点で、公開されるPageRankが内部で使用される値とは異なる可能性があること、そして本来注目すべき指標はコンバージョン率、直帰率、クリック率(CTR)など、事業成果に直接結びつく指標であると述べています。
GOOGLE PAGERANK
誤解されやすいPageRankの4つのポイント
Google Search Central Blog (2011) / 特許文献 / Google公式ドキュメントに基づく整理
PageRankの正しい位置づけを理解し、SEO 戦略の精度を高めるための技術的整理
1
PageRankは順位そのものではない
ランキングを構成する多数のシグナルの一つに過ぎない
✕ 誤った理解
PageRank=検索順位の
全説明変数だと考える
○ 正確な理解
「多くの要因とシグナル」に基づく
ランキングシステムの一部に過ぎない
補足: Googleは200以上のランキングシグナルを併用。PageRankは特徴的ではあるが唯一の決定要因ではない
── Search Central Blog (2011): PageRank is “not the be-all and end-all of ranking”
PageRank
コンテンツ
UX
E-E-A-T
Core WV
モバイル
その他多数のシグナル …
200+
2
単なる被リンク本数ではない
リンク元の「質」(再帰的重み)がリンク先への寄与を決定する
✕ 誤った理解
リンクの「本数」だけで
評価が決まると考える
○ 正確な理解
高ランクページからの1本のリンクが
低ランク群の多数より高い寄与を持つ
補足: リンク元自身のPageRankが高いほど受け手への寄与が大きくなる再帰的構造
── PageRank特許文献: リンクの「重み」は元ページの評価値に依存する
高PR
×1
対象
>
低
低
低
×3
対象
← 質が量を上回る
3
厳密にはページ単位の量である
サイト全体評価は実務上の近似であり、PageRankの厳密定義ではない
✕ 誤った理解
「サイト全体の強さ」=
PageRankと同一視する
○ 正確な理解
ページ単位で算出される量。
サイトワイドシグナルは補助的に併用
補足: 実務上ドメイン単位で近似することはあるが、それはPageRankの定義そのものではない
── Google: ランキングはpage levelで動作し、site-wide signalsは補助的に併用する
example.com
PR 8
PR 5
PR 2
← 同一サイト内でもページごとに異なる
4
事業KPIにするのは筋が悪い
公開値は内部利用値と乖離しうる ─ Toolbar PageRankは2016年に廃止
✕ 誤った理解
PageRankスコアを追跡し
最適化対象の中心に据える
○ 正確な理解
CVR・直帰率・CTR など
事業に直結する指標を優先的に追う
補足: Googleが推奨する追跡指標 ─ conversion rate / bounce rate / CTR / time on site
── Google (2011): 公開PRは内部利用値と異なりうると明言。事業直結指標を追うべきと推奨
CVR
直帰率
CTR
滞在時間
← Google推奨の事業KPI
PageRank
← KPI非推奨
まとめ
PageRankはリンク設計の原理として理解し活用しつつ、事業成果に直結するKPIの追跡を優先すべきである
経営者のためのPageRankの考え方と整理
経営上もっとも自然な立場は、PageRankをクエリ非依存(query-independent)なグラフ上の事前分布として捉え、語彙的関連性や意味的関連性と組み合わせて利用することです。
タヒル・ハベリワラの文脈では、検索システムは転置インデックス(inverted text index)と補助的なランキングベクトル(auxiliary ranking vectors)を併用し、その一例としてトピックごとのPageRankベクトルをクエリ時に参照する仕組みが提案されています。
これは、PageRankが「検索のすべて」ではなく、「検索の一部として非常に扱いやすい数値的特徴量」であることを端的に示しています。
SEO のNeural MatchingやRankBrainを前提とした場合でも、この整理は依然として有効です。
PageRankは意味的なマッチング(semantic matching)を置き換えるものではなく、意味的に適合した候補の中から、どのページがWeb上でより強い編集的支持を受けているかを判断するための補助的な指標として機能します。
SEO の実装や評価においては、PageRankの効果を単純に「権威性」の効果として断定しないことが重要です。
リンクグラフの抽出精度、クロールの到達性、アンカーテキスト、テンプレート変更、スパム抑制、noindexやrobotsによる制御など、周辺要因がPageRankの見え方に大きく影響するためです。
特に、Googleが、ページ単位のシグナル、サイト全体のシグナル、リンク解析、AIシステム、スパム検出を同時に用いていると明言している以上、単一の要因でSEO の順位変動を説明しようとする姿勢は、経営的にも慎重であるべきです。
自社サイト内のリンク構造に対してPageRankを計算し、孤立ページや接続の弱いページを特定することは有益ですが、それはWeb全体のリンクグラフ上で動作する検索エンジンのPageRankとは前提条件が異なる点を明確に区別する必要があります。
経営者のためのPageRankの考え方と整理
PageRank の研究的位置づけ — Graph Prior としての整理と多因子環境下での評価指針
第 1 部
研究上の最も自然な立場
PageRank を query-independent な graph prior とみなし、語彙的関連性・意味的関連性と融合する
— これが研究上の最も自然な立場である —
Haveliwala の検索モデル — 融合アーキテクチャ
Query
検索クエリ入力
Inverted Text Index
語彙的一致による候補集合の生成
Auxiliary Ranking Vectors
Topic-specific PageRank ベクトル(query time 参照)
Score = f( T, P )
テキスト一致 + グラフ特徴量の融合
Ranked Results
融合スコアによる最終順位
示唆
PageRank は「検索のすべて」ではなく、「検索の一部として非常に使いやすい数値特徴量」
→ 単独のランキング手法ではなく、他の関連性指標と併用する補助的数値特徴量としての位置づけ
現代検索における三つの機能層
— Neural matching / RankBrain を前提としても有効な整理 —
意味的関連性
Semantic Matching
Neural matching — クエリ意図の深い理解
RankBrain — 未知のクエリへの汎化
BERT / MUM — 文脈を考慮した一致判定
機能:意図に合致する候補集合の形成
語彙的関連性
Lexical Matching
Inverted Text Index — 転置索引検索
TF-IDF / BM25 — 統計的語彙重み付け
アンカーテキスト照合 — 外部記述の利用
機能:語句一致による候補集合の形成
グラフ構造的支持
PageRank — Graph Prior
Query-independent な数値特徴量
Topic-specific 変種も利用可能
Web 上の編集的支持の強度を反映
機能:候補の中でどれがより支持されているかの判定
候補発見(左 2 層)→ 支持の確認(右 1 層) ※ 置き換えではなく補助線として
第 2 部
実装と評価における注意点
核心的注意
PageRank の効果を純粋な「権威性」の効果として即断してはならない
理由:周辺条件が PageRank の観測値と見え方を大きく変えるため
PageRank の観測を歪める 6 つの周辺条件
PageRank 真値
理想的グラフ上の計算値
周辺条件フィルタ層(観測を歪める要因)
リンクグラフの抽出品質
クロール到達性
アンカーテキスト
テンプレート変更
スパム抑制
noindex / robots 制御
真値がこの層を通過するとき、観測値は歪む
PageRank 観測値
実際に測定される値
Google が明言する 5 因子の同時使用
— 単一因子で順位変動を説明しようとする態度は研究として危うい —
ページ単位シグナル
Site-wide Signals
リンク分析
PageRank はここに含まれる
AI システム
スパム検出
PageRank は 5 因子の 1 つ(リンク分析)の中の一部にすぎない
峻別が必要な 2 つの問題設定
自社サイト内部グラフの PageRank
← 孤立ノード
孤立ページ・過小接続ページの診断に有益
制御可能 ・ 計算可能 ・ 直接的に改善可能
スコープ:数百 〜 数万ページ
≠
異なる問題設定
Web 全体リンクグラフの PageRank
検索エンジンが Web 全体を対象に計算
外部条件依存 ・ 推定対象 ・ 間接的制御
スコープ:数百億ページ以上
総 括
PageRank は query-independent な graph prior として、語彙的・意味的関連性と融合して用いるのが研究上の自然な立場。
その効果の評価には周辺条件の統制が不可欠であり、多因子の一部として慎重に扱うべきである。
研究者・実務家のための見取り図 v3 — PageRank の位置づけと多因子ランキング構造
PageRankは、リンクを単なる票として数えるだけの素朴な人気度指標ではありません。
重要なページからの支持を再帰的に伝播させ、ランダムサーファーモデルの定常分布として定式化し、巨大なグラフ上でも計算可能な形に落とし込んだ、情報検索の歴史において極めて洗練されたアイデアです。そしてその核心は、現在においてもなお有効に機能しています。
Googleは、PageRankをコアランキングシステムの一部として位置付けながら、Neural Matching、RankBrain、スパム検出、品質シグナルなどを組み合わせてSEO を構成しています。
SEO において求められる姿勢は、PageRankを過度に神秘化して過大評価することでも、古い概念として切り捨てることでもありません。
PageRankを、リンク構造によって生まれるグローバルな重要度の推定手法として正しく理解し、それをユーザー価値、意味理解、スパム耐性、内部リンク設計といった文脈の中で統合的に活用することが重要です。
PageRankの本質とSEO における位置づけ
なぜリンク数ではなく「誰からリンクされたか」が重要度を決定するのか
01
再帰的伝播 — 被リンク数が多い≠重要とは限らない
A
PR 0.30
B
PR 0.22
C
0.14
D
0.10
E
0.11
F
G
被リンク4本(最多)だがPR5位
被リンク数
1. D
4本
2. A
3本
3. B
2本
4. C
2本
5. E
1本
vs
PageRank
1. A
0.30
2. B
0.22
3. C
0.14
4. E
0.11
5. D
0.10
Dは1位→5位
に下落
被リンクの「数」ではなく、リンク元の「重要度」が再帰的に伝播し、最終的な順位を決定する
02
ランダムサーファーモデルと反復収束
確率 d (≈ 0.85)
現在のページの発リンクから
ランダムに1つ選んで遷移
リンクを辿る
確率 1−d (≈ 0.15)
リンクを無視して
全ページから等確率で遷移
ランダムジャンプ
↓ 十分な回数繰り返すと各ページの滞在確率が収束する
反復収束の過程(べき乗法)
t=0
t=1
t=2
t=5
t=10
収束
A
B
D
(差)
0.14
0.22
0.30
0.22
0.10
3倍
PR(i) = (1−d)/N + d × Σ PR(j)/L(j) (巨大グラフ上で計算可能)
03
現代Googleの検索パイプライン — PageRankの核心は今も生きている
検索
クエリ
シグナル処理層
PageRank
リンク構造の重要度
Neural matching(意味理解)
RankBrain(クエリ解釈)
スパム検出
品質 / E-E-A-T シグナル
+ その他数百のランキング要因
ランク
付き結果
04
SEO における正しい態度 — 統合的理解
✕
過大評価
神秘化
✕
切り捨て
時代遅れ扱い
◎ 正しい位置
PageRank = リンク構造がもたらすグローバルな重要度の推定器
この理解を4つの文脈で統合的に扱う
ユーザー価値
良質なコンテンツが
自然な被リンクを生む
意味理解
リンクの文脈的意味が
重要度の質を規定する
スパム耐性
不自然なリンク操作は
検出・無効化される
内部リンク
サイト内のPR配分
を意図的に設計
PageRankを「グローバル重要度の推定器」として正しく理解し
ユーザー価値・意味理解・スパム耐性・内部リンク設計と統合的に扱うことが
現代SEO における唯一の正しい態度である