next up previous contents
Nächste Seite: Die Verteilung mit In-/Outdegree Aufwärts: Die Korrelationen im Webcrawl Vorherige Seite: Die Korrelationen im Webcrawl   Inhalt

Die unkorrelierte Verteilung

Zum Vergleich wird ausgehend von der Annahme, daß keinerlei Korrelationen zu finden sind, ein unkorreliertes Netzwerk mit gleicher mittlerer Konnektivität $<k>=\frac{N_{L}}{N}$ betrachtet, wobei $N$ die Anzahl der Knoten und $N_{L}$ die Anzahl der Links sind. Dieses Netzwerk soll eine Verteilung der Knoten mit Indegree $i$ identisch mit $P_{in}(i)$ des Webcrawl haben, damit die Zusammensetzung der Indegrees von Knoten im unkorrelierten Netzwerk mit dem Webcrawl übereinstimmt. Außerdem wird die Zahl der Outlinks eines Knotens durch den Erwartungwert der Outdegree-Verteilung $<j>=\sum_j P_{out}(j) j$ abgeschätzt. Darüber hinaus werden alle Quell- und Zielknoten einer Verbindung unabhängig und zufällig gewählt. Die Wahrscheinlichkeit, daß ein Link bei einem bestimmten Knoten mit Indegree $i_2$ endet, ist dann proportional zu seinem Indegree. Mit der Anzahl $N P_{in}(i_2)$ von Knoten mit einem Indegree $i_2$ wird die Wahrscheinlichkeit, daß eine Verbindung bei irgendeinem Knoten mit Indegree $i_2$ endet, zu $\frac{i_2 N
P_{in}(i_2)}{N_{L}}$. Die Wahrscheinlichkeit, daß ein Link bei einem Knoten mit Indegree $i_1$ startet, folgt demselben Prinzip zu $\frac{ <j> N
P_{in}(i_1)}{N_L}$. Somit entspricht die Gesamtwahrscheinlichkeit, einen Link von einem Knoten mit Indegree $i_1$ zu einem Knoten mit Indegree $i_2$ zu finden,

$\displaystyle L_0(i_1, i_2)= \frac{<j>P_{in}(i_1) i_2 P_{in}(i_2)}{<k>^2}.$ (5.2)

Abbildung: Verteilung der Links $L(i_1, i_2)$ in Abhängigkeit vom Indegree des Quellknotens $i_1$ und vom Indegree des Zielknotens $i_2$ des Webcrawls, normiert mit der erwarteten Verteilung $L_0(i_1,i_2)$ bei Netzwerken ohne Korrelationen zwischen den Indegrees von Nachbarn (vgl. (5.2)).
\begin{figure}\par
\noindent
\centering\epsfig{file=eps/krap_links_norm0_lin.eps, width=\linewidth} \vskip 0.1in\end{figure}

In Abbildung 5.4 ist die mit obiger Formel (5.2) normierte Verteilung des Webcrawls dargestellt, wobei die empirische Verteilung $P_{in}(i)$ verwendet wurde. Man erkennt deutliche Abweichungen zwischen der gemessenen und der theoretischen Verteilung. Insbesondere zeigt sich eine deutlich höhere Präsenz von Links zwischen Knoten mit hohem Indegree, als es die Näherung (5.2) wiedergibt.


next up previous contents
Nächste Seite: Die Verteilung mit In-/Outdegree Aufwärts: Die Korrelationen im Webcrawl Vorherige Seite: Die Korrelationen im Webcrawl   Inhalt
Autor:Lutz-Ingo Mielsch