So funktionieren Suchmaschinen

zurück

Notebook mit Google Browser auf Screen — Die Funktionsweise von Suchmaschinen (Symbolbild)

Viele verschiedene Prozesse sind daran beteiligt, Inhalte aus dem Internet auf die Suchmaschinen-Resultateseite zu bringen. Oft verlaufen diese im Sinne der Webseiten-Betreiber, manchmal geht dabei auch etwas schief. Für jede/n der Suchmaschinenoptimierung betreibt, ist es deshalb von grosser Bedeutung, die vier wichtigsten Phasen zu kennen, die Suchmaschinen durchlaufen, bevor sie Webseiten in den Suchergebnissen anzeigen.

Beim vorliegenden Blogpost handelt es sich um eine überarbeitete und gekürzte Version des Beitrages "The 4 stages of search all SEOs need to know" von Chris Silver Smith.

1. Crawling

Stellen Sie sich vor, Google und Microsoft Bing sitzen an einem Computer und tippen oder klicken auf einen Link zu einer Webseite in ihrem Browserfenster. Die Suchmaschinen besuchen also Webseiten, ähnlich wie Menschen es tun. Jedes Mal, wenn die Suchmaschine eine Webseite besucht, sammelt sie eine Kopie dieser Seite und notiert alle Links, die sie auf dieser Seite findet.

Nachdem die Suchmaschine diese Webseite erfasst hat, besucht sie den nächsten Link und so weiter. Dieser Vorgang wird als "Crawling" oder "Spidering" bezeichnet. Die von den Suchmaschinen verwendeten Datensammelprogramme werden "Spider", "Bots" oder "Crawler" genannt.

Diese Phase der Verarbeitung von Webseiten durch die Suchmaschinen sieht auf den ersten Blick einfach aus, die Vorgänge sind jedoch sehr komplex. Die Datensammelprogramme müssen mit diversen Webserver-Systemen, unterschiedlichen Betriebssystemen in verschiedenen Versionen und mit mannigfaltigen Content-Management-Systemen interagieren.

Bevor eine Suchmaschine eine Seite besuchen kann, muss sie einen Link zu der Seite finden. Suchmaschinen können die Links von Webseiten wie folgt entdecken:

Ein Website-Betreiber reicht den Link direkt ein oder stellt der Suchmaschine eine Sitemap zur Verfügung.
Andere Websites verlinken auf die Seite.
Durch Links auf die Seite innerhalb der eigenen Website, vorausgesetzt, die Website hat bereits einige Seiten indexiert.
Über Beiträge in sozialen Medien.
Via in Dokumenten gefundene Links.
URLs, die in geschriebenem Text gefunden werden und nicht verlinkt sind.
Über die Metadaten von verschiedenen Arten von Dateien.
Etc.

In manchen Fällen weist eine Website die Suchmaschinen über ihre robots.txt-Datei an, eine oder mehrere Webseiten nicht zu crawlen. Dies bedeutet jedoch nicht, dass diese Seiten nicht in den Suchergebnissen erscheinen können. Es kann jedoch passieren, dass dadurch die Seite nicht mehr gleich gut für die erwünschten Keywords rangiert.

In anderen Fällen können Suchmaschinen Schwierigkeiten haben, eine Website zu crawlen, weil die Website die Bots automatisch blockiert. Das passiert beispielsweise, wenn:

der Bot innerhalb eines bestimmten Zeitraums mehr Seiten anfordert, als ein Mensch es könnte.
der Bot mehrere Seiten gleichzeitig anfordert.
die Server-IP-Adresse des Bots sich in einer Zone befindet, die von der Website ausgeschlossen wurde.
die Anfragen des Bots und/oder die Seitenanfragen anderer Benutzer die Ressourcen des Servers überfordern.

Websites mit einer grossen Anzahl von Seiten oder solche, die langsamer reagieren, können ihr verfügbares Crawl-Budget aufbrauchen, bevor alle ihre Seiten gecrawlt wurden, wenn sie im Vergleich zu anderen Websites ein relativ geringes Ranking-Gewicht haben.

2. Rendering

Wenn die Suchmaschine eine Webseite crawlt, wird sie die Seite "rendern". Dabei werden die HTML-, JavaScript- und Cascading Stylesheet (CSS)-Informationen verwendet, um zu ermitteln, wie die Seite für die Benutzer aussehen wird. Dies ist wichtig, damit die Suchmaschine verstehen kann, wie der Inhalt der Webseite im Kontext angezeigt wird. Somit kann sie alle Inhalte erfassen, die ein menschlicher Nutzer beim Besuch der Seite sehen würde.

Sowohl Google als auch Microsoft Bing führen JavaScript aus, um den gesamten Inhalt der Seite zu sehen. Daher können komplexere JavaScript-Konstrukte für die Suchmaschinen eine Herausforderung darstellen.

Seiten, die einige Schlüsselelemente auf der Grundlage von Cookies nur bedingt bereitstellen, werden möglicherweise ebenfalls fehlerhaft oder nicht vollständig gerendert.

3. Indizierung

Sobald eine Seite gecrawlt und gerendert wurde, verarbeiten die Suchmaschinen die Seite weiter, um festzustellen, ob sie in den Index aufgenommen werden soll oder nicht, und um zu verstehen, worum es auf der Seite geht.

Der Suchmaschinenindex ähnelt in seiner Funktionsweise einem Wörterverzeichnis, das am Ende eines Buches zu finden ist. Dort werden alle wichtigen Wörter und Themen des Buches aufgelistet, wobei jedes Wort alphabetisch geordnet ist, zusammen mit einer Liste der Seitenzahlen, auf denen die Wörter/Themen zu finden sind. Der Index einer Suchmaschine enthält viele Schlüsselwörter und Schlüsselwortfolgen, die mit einer Liste aller Webseiten verbunden sind, auf denen die Schlüsselwörter gefunden werden.

Es werden nicht alle gecrawlten Seiten in den Suchindex aufgenommen. Wenn eine Seite beispielsweise ein Robots-Meta-Tag mit einer "noindex"-Direktive enthält, weist sie die Suchmaschine an, die Seite nicht in den Index aufzunehmen. Ebenso kann eine Webseite einen X-Robots-Tag in ihrem HTTP-Header enthalten, der die Suchmaschinen anweist, die Seite nicht zu indizieren.

In anderen Fällen kann der kanonische Tag einer Webseite eine Suchmaschine anweisen, eine andere als die aktuelle Seite als die Hauptversion der Seite zu betrachten, was dazu führt, dass andere, nicht-kanonische Versionen der Seite aus dem Index gestrichen werden.

Google entfernt auch Seiten aus dem Index, welche von geringer Qualität sind. Dazu gehören Seiten mit doppeltem Inhalt, Seiten mit dünnem Inhalt und Seiten, die zu viele irrelevante Inhalte enthalten.

4. Ranking

Sobald eine Suchmaschine eine Liste aller Webseiten hat, die mit einem bestimmten Schlüsselwort oder einer Schlüsselwortkombination verbunden sind, muss sie festlegen, wie sie diese Seiten rangiert, wenn eine Suche nach dem Schlüsselwort durchgeführt wird.

Es gibt sehr viele Kriterien, die den Rang einer Webseite in den Suchergebnissen beeinflussen können. Google gibt an, dass sein Algorithmus mehr als 200 Rankingfaktoren verwendet. Innerhalb dieser Faktoren kann es bis zu 50 sogenannte Vektoren geben – Dinge, die die Auswirkungen eines einzelnen Ranking-Signals auf die Platzierung beeinflussen können.

Einige der Rankingfaktoren sind:

Links auf die Seite
Kompetenz, Autorität und Vertrauenswürdigkeit (E-A-T)
Qualität
Standort/Nähe
Persönlicher Suchverlauf
Verschlüsselt vs. unverschlüsselt
Mobilfreundlichkeit
Seitengeschwindigkeit
und weitere

Fazit

Bevor eine Seite in der Suchmaschinen-Resultate erscheint, sind einige Prozesse nötig. Dabei gibt es viele Stolpersteine, welche dazu führen können, dass eine Seite gar nicht oder an einer unvorteilhaften Position erscheint. Um solche Probleme umgehen zu können, lohnt es sich, die Funktionsweise der Suchmaschinen zu kennen.

Quellen und weiterführende Informationen

Deepl Translator.

Hanseranking. Wie funktionieren Suchmaschinen?

Semotion. Die Funktionsweise von Suchmaschinen.

Smith, C.S. (2022). The 4 stages of search all SEOs need to know. Search Engine Land.