Search Engine Optimization

Was hat dieser PC mit Search Engine Optimization zu tun?

Search Engine Optimization
Search Engine Optimization

Vor ein paar Jahren hatten wir einen Artikel über Googles High Tech veröffentlicht. Es war eines der ersten Veröffentlichungen in dieser Form, denn Google ließ sich schon lange nicht mehr in die Karten schauen.

Um die Search Engine Optimization zu verstehen, muss man die Suchmaschinen verstehen - vor allem Google. Nicht nur wie es tickt, sondern auf was es tickt.

Auf mehrfache Nachfrage haben wir den Artikel wieder herausgekramt und hier im Bereich der Search Engine Optimization als Verständnisgrundlage wieder online gestellt:

Wer es ließt wird dann auch verstehen, was der PC,  Google und die Search Engine Optimization verbindet:

Seit einigen Jahren ist Google die bekannteste und am häufigsten genutzte Suchmaschine. Mitte Juni 2000 wurde Google mit mehr als einer Milliarde Seiten im Index Marktführer im Suchmaschinen Bereich. Zur Zeit werden ca. 8 Milliarden Webseiten (Stand Januar 2005) durchsucht. Die Anzahl der indizierten Bilder liegt derzeit bei ca. 880 Millionen.

Die verwendeten Server bei Google sind normale No-Name Standard-PCs, die sich die Arbeit teilen. Durch die Zusammenarbeit mehrerer Rechner, auch Cluster genannt, erreicht Google ein gigantisches Leistungspotential:

Weltweit sind über 30 Cluster Datencenter mit bis zu 2000 Rechnern im Einsatz. Es wird derzeit eine Kapazität mit 126.544 GB RAM erreicht. Man schätzt, dass insgesamt 63.272 Rechner mit 126.544 Prozessoren (CPUs) in 719 Racks laufen. Die Gesamt-Prozessorleistung von 253.088 GHz und 5.062 TB (Terabyte) Festplattenspeicher auf gewöhnlichen IDE Festplatten sorgen dafür, dass 8.058.044.651 Dokumente mit durchschnittlich 10KB pro Dokument indiziert werden, 80 Terabyte als Index. Das wären 1 Petabypte Daten pro Cluster!

Ein wichtiger Aspekt für die Search Engine Optimization:

Somit ist Google eines der größten Rechenprojekte der Welt, das wohl mehr Rechner einsetzt als jedes andere voll verwaltete Einzelsystem (Distributed-Computing-Projekte werden hier nicht mitgezählt) und rund 200 Doktoren der Informatik und 600 weitere Informatiker beschäftigt.

Google wird jeden Tag über eintausend Mal pro Sekunde aufgefordert, diese Daten zu durchsuchen, und liefert die Ergebnisse normalerweise in Sekundenbruchteilen. Geht etwas schief, so lässt sich das System nicht einfach ab- und wieder anschalten.

Google betreibt seine Systeme auf preiswerten 1U- und 2U-Servern von No-Name-Anbietern - so preiswert, dass Google sie als PCs bezeichnet. Schließlich besitzt jeder dieser Server einen normalen x86 PC-Prozessor, eine normale IDE Festplatte und normale PC Zuverlässigkeit. Das bedeutet, dass im Durchschnitt der PC nach drei Jahren Dauerbetrieb ausfällt. Bei einem Heim-PC ist das aus wirtschaftlichen Gesichtspunkten akzeptabel, doch in dem Rahmen, in dem Google arbeitet, werden diese Ausfälle zu einem wirklichen Problem: In einem Cluster mit tausend PCs kann man davon ausgehen, dass im Schnitt ein PC pro Tag ausfällt. Bei dieser Größenordnung kann Google diese Probleme nicht manuell beseitigen. Hierfür sorgt eine Software, die stets mit einem Komponentenausfall rechnet und entsprechend handelt. Sämtliche Daten werden permanent durch die Software repliziert: Server, Racks, Regale und ganze Rechenzentren.

Aus diesem Blickwinkel betrachtet sind Rankingschwankungen in der Search Engine Optimization von ganz gewöhnlicher Natur.

Für Google sprechen zwei eintscheidende Faktoren: Mit einer Verdoppelung der eingesetzten Hardware, kann die die Performance/Kapazität verdoppelt werden. Innerhalb von drei Tagen lässt sich ein komplett neuer Daten- bzw. Rechenzentrum einrichten. Installation, Konfiguration und Einspielen der Daten ist automatisiert. Der zweite Faktor zu Gunsten von Google sind die fallenden Hardwarepreise. Verdoppelt sich die Indexgröße, bedeutet die absolut parallele Natur dieser Thematik, dass Google die Anzahl der Rechner verdoppeln und die gleiche Antwortzeit erhalten könnte, um so linear mit dem Datenverkehr zu wachsen. Während also das Web jedes Jahr größer wird und zur Indexierung, Suche und Ausgabe von Webseiten immer mehr Hardware benötigt wird, wird dieser immer preiswerter, so dass sich das Ganze mehr oder weniger ausgleicht.

Hier noch weiteres und interessantes Hintergrundwissen für die Search Engine Optimization:

Mit den wachsenden Proportionen des Betriebes ergeben sich aber bestimmte Probleme, die bei kleineren Systemen kein Thema wären. So verwendet google zum Beispiel nur IDE Laufwerke als Speichermedien. Diese sind schnell und preiswert, aber nicht besonders zuverlässig. Der Betrieb Tausender preiswerter Server mit relativ hohen Ausfallquoten ist keine einfache Aufgabe. Eine normale IDE Festplatte hat durchschnittlich eine Fehlerquote zwischn 1 10 -10 und 1 in 10 -15 Bits - das heißt, dass ein Millionstel eines Milliardstels der darauf geschriebenen Daten beschädigt werden könnte, ohne dass dies durch die Fehlerprüfung der Festplatte entdeckt würde. Wenn man aber ein Petabyte von Daten hat, muss man sich langsam über dies Ausfälle Gedanken machen. Man muss davon ausgehen, dass mehrere Male im Monat unentdeckte Bitfehler auf der Platte vorhanden sein werden, trotz integrierter Hardwareprüfung. Hinzu kommt, dass in einem Cluster mit tausend PCs ein PC pro Tag ausfällt. Das wären am Tag gut 63 Rechner!

So gesehen können auch Hardwarefehler die Rankings in den Suchergebnissen ohne Search Engine Optimization beeinflußt werden.

Eine Suchanfrage wird zuerst an die Daten- bzw. Indexserver gesendet. Das Ergebnis wird an Hand der Indexserver aus dem Documentserver ausgelesen. Unter Berücksichtigung der bereits genannten relativ hohen Ausfallqoute und den damit einhergehenden mangel- bis fehlerhaften Suchergebnisausgaben, ist so manche Hysterie in der professionellen Search Engine Optimization Welt nicht nachvollziehbar. Abstruse bis völlig danebenliegende Legenden über die möglichen Ursachen sind die Folge. So manche unsinnige Theorien der Search Engine Optimization haben sich bis heute hartnäckig, beharrlich und widerstandsfähig erwiesen und weitere werden es auch in Zukunft tun. So manch viel diskutierte und pseudoanalysierte Theorie hat sich bereits beim nächsten Update "vom Winde verweht".

Zusammengefasst für die Search Engine Optimization: In Wirklichkeit hat Google wahrscheinlich bis zu fünfzig Kopien jedes einzelnen Servers. Google repliziert Server, Server-Sets umd komplette Rechenzentren. Offiziell hatte Google seit Februar 2000 kein einziges Systemkomplettausfall zu verzeichnen gehabt. Das heißt aber noch lange nicht, dass mittlere bis kleinere Ausfälle nicht zum Alltag gehören und die Search Engine Optimization nicht negativ beeinflussen. Heute spiegelt Google über mehrere unabhängige Rechenzentren und baut den Index immer wieder komplett neu auf (Update), um so immer wieder innerhalb der Fehlertoleranzen zu liegen und zu bleiben. Wenn also in einem Rechenzentrum Daten verloren gehen, können diese wieder von woanders zusammen getragen werden. Gehen Daten in einem Rechenzentrum abhanden, kann man owanders weiterarbeiten. Nachweislich haben nicht alle Updates erfolgreich abgeschlossen. Zu jenen Zeiten herrschte vorübergehend Hysterie unter den Search Engine Optimization Spezialisten, bis diese Updates durch Neue wieder egalisiert wurden. Solche Dinge passieren eben und man muss mit ihnen klarkommen.

Wichtig für die Search Engine Optimization: Google verwendet zur Erstellung der Seitenreihenfolge einen Algorithmus, der die Seite u.a. anhand der Quantität und Qualität des Inhalts/Contents und der Links bewertet, die zu ihr und von ihr führen. Wie der Algorithmus genau funktioniert bleibt ein Betriebsgeheimnis und es ist Aufgabe der Search Engine Optimization, so genau wie möglich an diesen Algorithmus heranzukommen. Die erste und bekannteste Stufe der Search Engine Optimization ist die On Page Optimierung. Das große Einmaleins der Search Engine Optimization stellt aber die Off Page Optimierung dar. Jeder Search Engine Optimization Spezialist behält wie Google selbst diese Betriebsgeheimnis für sich.

Die Reihenfolge, in der die Homepages angeboten werden, ist also nicht willkürlich. Die Popularität bestimmt das Suchergebnis. Begehrte Plätze sind die ersten zehn angezeigten Seiten. Sie werden Studien zufolge zu neunzig Prozent besucht.

Den weitaus wenigsten ist jedoch die Netzwerk Optimierung (SEOnet) bekannt. Man spricht von einer Vernetzungsstruktur an Websites/Homepages, ausgehend von 100 und mehr. Während Google und die klassische Search Engine Optimization einer natürlichen Verlinkung der Websites in dieser Größenordnung stest Willkommen heißt, ist eine professionelle und gesteuerte Vernetzung dieser Art nicht gerne gesehen. Das hat verschiedene Gründe. Sofern jedoch diese Form der Search Engine Optimization nur der Qualitätssteigerung und nicht der Manipulation dient, stehen dem keine gegenteiligen Argumente entgegen. Jedoch ist diese Form der Search Engine Optimization nur aus der Hand erfahrener und professioneller SEOs zu empfehlen.