Dienstag , 16 Januar 2018

Duplicate Content – Ursachen und Gegenmaßnahmen

In letzter Zeit wird häufig das Thema Duplicate Content (dt. doppelter Inhalt) diskutiert, nicht zuletzt weil man sich über dessen Einfluss auf das Google Ranking nicht ganz einig ist. Es gibt unzählige Faktoren die das Ranking bei Google beeinflussen und täglich kommen neue Tipps und Tricks dazu. Doch welcher Faktor hat welchen Einfluss und wie wichtig ist dabei die Vermeidung von Duplicate Content? Wie entsteht dieser und was kann man dagegen machen…?

Was ist Duplicate Content eigentlich?

Als Duplicate Content bezeichnet man gleiche oder ähnliche Textpassagen und Inhalte die man über verschiedene URLs aufrufen kann. Dieser Inhalt kann innerhalb einer Domain auftreten oder sich auf unterschiedlichen Domains befinden. Demnach unterscheidet man zwischen „Internen Duplicate Content“, d.h. mehrere URL-Varianten einer Domain oder „Externer Duplicate Content“, was bedeutet, dass derselbe Inhalt auf verschiedene Domains aufgeteilt ist. Durch den Anspruch der Suchmaschinen, allen voran Google, ihren Usern nur einzigartige Ergebnisse anzuzeigen, werden solche doppelten Inhalte von den Suchmaschinen nicht mehr angezeigt und aus den Suchergebnissen genommen. An oberster Stelle steht für Google nämlich der User, der auch erwartet, die bestmöglich passenden Suchtreffer auf seine Anfrage zu erhalten. Wenn es dann mehrere Seiten mit denselben oder nahezu identischen Inhalten gibt und Google diese doppelten Inhalte erkennt, wird nur mehr ein Ergebnis in den „Search Engine Result Pages“ (SERPs) angezeigt. Welche das sind, entscheidet die Google selbst.

Wie kommt es zu „Duplicate Content“?

Jeder Ersteller einer Website ist sich sicher keine doppelten Inhalte auf der Website zu haben, doch häufig liegt das Problem nicht an kopierten Textpassagen, sondern an technischen Fehlern. Im Folgenden sind die häufigsten Fehler die zu „Duplicate Content“ führen können, ob technischer Herkunft oder durch den User erstellt, näher erklärt:

Durch URLs mit und ohne www
Seiten die mit und ohne www davor aufrufbar sind, werden von Suchmaschinen als „Duplicate Content“ interpretiert. Häufig erkennt die Suchmaschine dass es sich um dieselbe Seite handelt. Verlassen sollte man sich besser nicht drauf, dasselbe gilt auch für http und https.

Produktbeschreibungen, Title und Description
Kopierte Produktbeschreibungen, gleiche oder ähnliche Title-Texte oder Descriptions werden auch von Google als „Duplicate Content“ interpretiert. Produktbeschreibungen sollten nicht einfach kopiert werden und die Möglichkeit Title und Description individuell zu vergeben sollte unbedingt genutzt werden. Werden diese lediglich kopiert oder nur minimal abgeändert, ist das für Google „Duplicate Content“

Eine alte Seite wird durch eine neue Seite ersetzt
Sollte man mit seiner Seite „umziehen“ wollen, ist unbedingt darauf zu achten, dass die alte Seite aus den Suchergebnissen „fliegt“. Ist die alte Seite noch im Index der Suchmaschine und die neue Seite bietet denselben Inhalt nur unter einem neuen Permalink, wird dieser als „Duplicate Content“ gesehen.

Umzug der Domain
Dasselbe gilt für einen Domain-Umzug. Wurde dieser nicht ordnungsmäßig gemacht, werden sämtliche Seiten der alten Domain sowie die völlig identen Inhalte der neuen Domain angezeigt und von Suchmaschinen als „Duplicate Content“ interpretiert.

Verschiedene Domains, die denselben Inhalt aufweisen
Es kann auch vorkommen, dass man gleiche Inhalte absichtlich auf mehreren Webseiten veröffentlicht. Diese sollten unbedingt mit eindeutigen Quellenangabe und der entsprechenden Verlinkung versehen werden, damit die Suchmaschinen erkennen kann, welches das Original ist und nicht die falsche Seite nicht mehr in den Suchergebnissen angezeigt wird.

Unterschiedliche Sprachversionen einer Webseite
Viele Seiten sind in unterschiedlichen Sprachen verfügbar und die darauf vorkommenden Inhalte unterschieden sich nur gering. Bei mehrsprachigen Seiten sollte die geografische Ausrichtung der Seite unbedingt Google mitgeteilt werden, damit nicht mehrere Sprachversionen in den Suchergebnissen auftauchen und sich dann gegenseitig schwächen.

Wie findet man „Duplicate Content“?

Eine Möglichkeit „Duplicate Content“ zu finden ist die Abfrage markanter Inhalte einer Seite direkt in der Google-Suche. Dabei wird einfach ein Satz oder ein kompletter Textausschnitt der Website kopiert und unter Anführungszeichen in das Suchfeld bei Google eingegeben. Wenn man mehr als einen Suchtreffer erhält, ist „Duplicate Content“ vorhanden.

Google kommentiert diesen auf folgendermaßen: Damit Sie nur die relevantesten Ergebnisse erhalten, wurden einige Einträge ausgelassen, die den 2 angezeigten Treffern sehr ähnlich sind. Sie können bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen.

In so einem Fall sollte man sich die vermeintlichen doppelten Inhalte anzeigen lassen, in dem man die Suche wiederholt und überprüfen ob es die eigene Website betrifft oder möglicherweise ungewollter „Duplicate Content“ oder Plagiate der Inhalte vorhanden sind.

Eine Möglichkeit internen „Duplicate Content“ zu identifizieren ist das kostenlose Tool Screaming Frog.  Mit dem Tool kann man die Seite crawln und dann nach „Duplicate Content“ z.B. beim Title oder der Description sortieren. Ein weiteres Tool ist das Online-Tool Siteliner. Mit diesem Tool kann die gesamte Website gecrawlt werden und ein umfangreicher Report zeigt potenziellen „Duplicate Content“ mit prozentualer Übereinstimmung der Seiteninhalte.

Wie vermeidet man „Duplicate Content“?

Nachdem man mit den oben beschriebenen Arten und den Tools „Duplicate Content“ identifiziert hat, folgen nun die Tipps, wie man „Duplicate Content“ vermeiden können.

Domain-Umleitung in der .htaccess
Mit folgendem Eintrag in der .htaccess Datei (diese liegt im Root Verzeichnis des Webservers) kann die Domain ohne www auf die Domain mit www umgeleitet werden:

RewriteEngine on RewriteCond %{HTTP_HOST} ^beispiel.at RewriteRule ^(.*)$ http://www.beispiel.at$1 [R=301,L]

Das Ganze kann natürlich auch andersrum gemacht werden, von mit www auf ohne www:

RewriteEngine on RewriteCond %{HTTP_HOST} ^www.beispiel.at RewriteRule ^(.*)$ http://beispiel.at$1 [R=301,L]

Dauerhafte, serverseitige Weiterleitung mit 301 Redirect per .htaccess
Eine dauerhafte Weiterleitung wird sinnvollerweise nur dann eingesetzt, wenn eine alte (nichts mehr existierende) Datei oder ganze Domain auf eine neue Domain umgeleitet werden soll. Wenn z.B. nach einem Redesign auch eine neue URL verwendet wird. Der Vorteil einer 301 Redirect Weiterleitung liegt darin, dass diese auch das Ranking der alten Seite auf das neue Ziel überträgt. Auch diese Einstellung macht man in der .htaccess Datei im Root-Verzeichnis.

Eine einzelne Datei umleiten:
RedirectPermanent /alte-seite.html http://www.ihredomain.at/neue-seite.html

Eine ganze Domain umleiten:
RedirectPermanent / http://www.neue-domain.at

301 Redirect mit der Funktion header() in PHP
Eine alternative zur permanenten Weiterleitung in der .htaccess gibt es die Möglichkeit folgende Code-Zeilen direkt in die HTML oder PHP Datei einzufügen:

<?php header(„HTTP/1.1 301 Moved Permanently“);
header(„Location: http://www.neue-domain.at/beispiel.html“);
header(„Connection: close“); ?>

Canonical Tag
Um einer Suchmaschine mitteilen zu können, welche URL bevorzugt werden soll sind Canonical Tags eine gute Möglichkeit. Google sieht eine „kanonische Seite“ nämlich als bevorzugte Version von mehreren Seiten mit ähnlichen Inhalten. Den Canonical Tag platziert man im <head> Bereich der Seite.

<head> <link rel=“canonical“ href=“http://www.ihredomain.at/beispiel-seite/“/> </head>

Canonical Tags sind ziemlich umfangreich, dazu gibt es aber sehr hilfreiche Informationen bei Google direkt.

noindex Hinweis in den META Tags
Eine weitere Möglichkeit, falls man doppelten Inhalt benötigt und dieser nicht gefunden werden soll, ist es Suchmaschinen mitzuteilen, welche Inhalte nicht indexiert werden sollen. Über einen „noindex“-Vermerk in den META-Tags, durchsuchen Suchmaschinen diese Seite nicht und somit kann auch kein „Duplicate Content“ erkannt werden.

<META NAME=“robots“ CONTENT=“noindex „>

Inhalte und Textbausteine nicht kopieren!
Das Wichtigste: kreativ sein und ausreichend Zeit für die Erstellung der Inhalte nehmen! Andere Seiten, Inhalte oder Textbausteine sollten keinesfalls kopiert werden. Inspiration ist ok, aber nicht kopieren. Auch wichtig, bis zum Fertigstellen der Website und dem Einrichten möglicher Weiterleitungen von alten Seiten, sollte die Seite nicht von Google oder anderen Suchmaschinen indexiert werden. Dies kann durch den Befehl „noindex“ erreicht werden.

Google Webmaster Tools verwenden
Sehr hilfreich bei der korrekten Erstellung einer Website und der Aufbereitung dieser, um diese Suchmaschinenkonform zu gestalten, sind die kostenlosen Google Webmaster Tools. Diese bieten einen guten Überblick über bereits indexierte Seiten. Darüber hinaus können hier unzählige Einstellungen getroffen werden, z.B. wie die Domain indexiert werden soll (mit oder ohne www) oder wie mit den verschiedenen URL-Parametern umgegangen werden soll.

Sprachversion definieren
Unterschiedliche Sprachversionen einer Webseite sollten unbedingt an Google gemeldet werden. Über eine Code-Zeile, die in den Header der Website eingefügt wird, kann man diese Sprachversion für Google und andere Suchmaschinen definieren.

Hier ein Beispiel für eine Seite in den Sprachen Deutsch und Englisch:

<link rel=“alternate“ hreflang=“de-AT“ href=“http://www.beispiel.at“ />
<link rel=“alternate“ hreflang=“en-GB“ href=“http://www.beispiel.com“ />

Doch wie schlimm ist „Duplicate Content“ wirklich?

Eine Frage die nur schwer zu beantworten ist. „Duplicate Content“ wird heiß diskutiert, aber die Meinungen gehen auseinander. Die Einen sagen, dass „Duplicate Content“ keinen großen Einfluss auf das Ranking hat, die Anderen sagen, es ist ein durchaus wichtiger Punkt, dem bei der Optimierung einer Seite unbedingt Beachtung geschenkt werden muss. Google erneuert seinen Algorithmus häufig und arbeitet ständig an dessen Weiterentwicklung und Verbesserung. Ganz voran: der User. Google will seinen Usern das bestmögliche Suchergebnis liefern und dafür werden Seiten ganz genau unter die Lupe genommen. Neben User relevantem Content, schnellen und fehlerfreien Seiten (inhaltlich wie technisch), ist sicher auch der einzigartige Content ein Punkt den Google berücksichtigt. „Duplicate Content“ kann nicht gänzlich vermieden werden, bestimmte Inhalte können wichtiger Bestandteil eines Produktes/Projektes sein und sich deshalb wiederholen. Zu 100% kann man „Duplicate Content“ nie vermeiden, man kann ihn aber verständlich für Suchmaschinen „markieren“ und so die eigene Seite User- und Suchmaschinenfreundlich gestalten.

Zum Schluss noch ein Video von Matt Cutts, dem „Head of Google’s Webspam Team“. Matt Cutts hat sich in einem kurzen Video der Frage „Welche Folgen hat Duplicate Content auf das Google Ranking“ angenommen.

Katharina Stelzer

Katharina Stelzer

Katharina Stelzer hat bereits einige Jahre Erfahrung im Marketing. Aktuell ist sie im B2B-Marketing für den Softwareentwickler Intact Consult tätig und kümmert sich dort vorrangig um den Bereich Online Marketing und um Messen- und Kongressteilnahmen. Neben ihrer Beschäftigung bei Intact absolviert Katharina das Masterstudium an der FH Burgenland im Studiengang Information, Medien und Kommunikation.
Katharina Stelzer

Latest posts by Katharina Stelzer (see all)

5 Kommentare

  1. Meiner Meinung nach ist doppelter Content ein durchaus wichtiger Faktor für Google. SEO & CO. sind ein dauerhafter und zeitintensiver Prozess, denen es Beachtung zu schenken gilt. Das vergessen nur leider sehr viele. Jeder will sofort Ergebnisse sehen, nur geht dies im WWW eben nicht von heute auf morgen.

  2. Patricia Walishofer

    Zum Thema „unterschiedliche Sprachversionen“ würde ich empfehlen einen hreflang-Tag zu setzen! Das hat bei uns einige Probleme gelöst.

  3. Das Problem mit dem doppeltem Content habe ich auch. Jedenfalls wird es auf einer PageRank Analyse so angezeigt. Bei liegt es auch an den URLs mit und ohne www. Ich hoffe Google erkennt, dass es sich nur um eine Seite handelt. Ich bin mal gespannt.

  4. Toller Beitrag und interessantes Thema. Bei Webshops kann fehlende Pagination (Seitennummerierung) auch Probleme mit DC verursachen. Auf Webshops ist der gleiche Text normalerweise auf mehreren Seiten vorhanden (nr. 1, 2. 3 usw.). Wenn die Seiten mit dem gleichen Text nicht mit rel=“prev“ und rel=“next“ nummeriert werden, charakterisiert Google diesen Text als Duplicate Content.