Mittwoch , 29 Oktober 2014

Web Scraping, Hacking und Monitoring mit Google Docs – Teil 1

Disclaimer
Vorweg, dieser Artikel soll nicht zu einer Diskussion ausarten, ob es sinnvoll ist, Google Docs für SEO Zwecke zu verwenden. Ich bin der Meinung, dass diese Frage jeder für sich selbst beantworten sollte. Man sollte sich natürlich darüber im Klaren sein, dass Google alle kostenlosen Services bis in Letztes tracked, analysiert und auswertet. Zudem sind die Möglichkeiten von Google Docs natürlich, im Vergleich zu custom-coded Lösungen beschränkt, aber dennoch für einige quick & dirty Tasks im Daily Business eines SEOs sehr hilfreich.

Let´s go!

In der folgenden Artikelserie werden wir uns folgende Funktionalität von Google Docs ansehen:

  • Teil 1 – Web Scraping mit Google Docs (ImportXML Funktion)
  • Teil 2 – API Abfragen mit Google Docs
  • Teil 3 – Automatisierte Rankingüberwachung mit Google Docs

Web Scraping mit Google Docs (ImportXML Funktion)

Google Docs bietet folgende Funktionen um Webinhalte zu scrapen.

  • importXML
  • importFEED
  • importHTML

Einziges Hindernis für absolute Scripting Anfänger ist XPath. Mittels XPath definiert man, welchen Teil einer Webseite man scrapen möchte. In unseren Beispiel holen wir uns die Titel der letzten Blogbeiträge von WebmarketingBlog.at.

=importxml("http://www.webmarketingblog.at/","//h2[@class='posttitle']")

Dies ist lediglich ein Beispiel, was man mit der Funktion anstellen kann. Stephen Foskett zeigt, wie man so beispielsweise die Anzahl der Twitter Follower oder auch LinkedIn Connections überwachen kann. Anbei noch ein paar weitere Anwendungsbeispiele, die zeigen sollen, was man mit Google Spreadsheet hier alles anstellen kann.

Alexa Rank Checker mit Google Docs

=value(importXML("http://www.alexa.com/search?q="&B5,"//div[@class='row']/span/a[@href][1]"))

Die Abfrage ruft ganz einfach alexa.com mit der jeweiligen Domain auf und parsed den aktuellen Wert direkt von der Webseite.

Sitrix Sichtbarkeitsindex Checker mit Google Docs

=importXML("http://www.sichtbarkeitsindex.de/"&B2,"//*[@id='results']/h3")

 

So kann man kinderleicht alle externen Quellen automatisiert anzapfen und sich die benötigten Informationen in einem Spreadsheet individuell zusammenstellen. Einige weitere nette Ideen hat Richard Baxter gesammelt.

Google Suggest Scraper

Ab jetzt wirds etwas komplexer, und zwar wollen wir die Google Suggest Ergebnisse zu einem Keyword automatisch in einem Spreadsheet abrufen. Gerade in Sachen Keyword Recherche ist Google Suggest ein absolutes Muss für jeden erfolgreichen SEO.

Step 1 – Abfrage senden

=concatenate("http://google.com/complete/search?output=toolbar&q="&D2)

Step 2 – Vorschläge scrapen

=importxml(D2,"//suggestion/@data")

In diesem Fall haben wir die Suggest Ergebnisse von “Tagesgeld” in der Spalte C und die Suggest Ergebnisse von “Tagesgeld Vergleich”, was gleichzeitig der erste Vorschlag vom Hauptkeyword ist, in der Spalte E.

Link & Anchor Text Scraper

Und jetzt scrapen wir uns alle Anchor Texte und Verlinkungen einer Seite. (Quelle: Ari).

Step 1 – URL definieren
einfach im Feld A2 die gewünschte URL eintragen

Step 2 – Anchor Texte abfragen

=importXML(A2, "//a")

Step 3 – Ziel URLs abfragen

=importXML(A2, "//a/@href")

In den nächsten beiden Teilen werden wir uns ansehen, wie man mit Hilfe von Google Spreadsheet APIs abfragen kann und wie man sich selbst einen kleinen aber feinen Google Ranking Checker bauen kann.

  • Teil 2 – APIs abfragen mit Google Docs
  • Teil 3 – Automatisierte Rankingüberwachung mit Google Docs

Anbei das Google Spreadsheet mit allen beschriebenen Funktionen.

An der Stelle möchte ich mich bei Tom Critchlow und dem Team von distilled.net für den englischen Originalpost bedanken. Wenn du noch weitere Ideen oder Anwendungsmöglichkeiten hast, oder bei einer Funktion nicht weiter komme, check out the comment function. ;)

Thomas Wusatiuk
Thomas Wusatiuk ist Head of Performance Marketing bei get on top gmbh und ist seit mehr als 9 Jahren im Bereich Online Marketing aktiv. Neber seiner Tätigkeit bei get on top verbringt er die meiste Zeit mit der Optimierung seiner eigenen Projekte. Thomas ist ein großer "Produktivitäts-Fanatiker" und immer auf der Suche nach neuen Ideen, neben seinen Projekten auch seine Mitarbeiter immer besser und schneller zu machen.
Thomas Wusatiuk
Thomas Wusatiuk

12 Kommentare

  1. danke thomas, sind super tipps für schnelle überwachungen und analysen. obwohl schon scary das mit google docs zu machen… ;-)
    freu mich auf die nächsten teile.

  2. Sehr geile Geschichte, freue mich schon auf nächsten Teile! Grüße nach .at :)

  3. Wäre zwar nicht auf die Idee gekommen, das mit Google Docs zu machen, fand es aber anregend. Wozu Google Docs nicht alles taugt ;-)

  4. Guter Artikel über Arbeite mit Google Docs. Hat nützliche Information, freue mich mehr davon zu lesen.

  5. Coole Sache! Da muss man erstmal drauf kommen ;)

  6. Moin Thomas
    schön mal wieder was von dir zu lesen :)

  7. hallo danke für den beitrag.

    kannst du auch erklären, wie man eine xml auslesen kann?

  8. Ich verstehe deine Frage nicht ganz. Mit der importxml function kannst du jegliche Daten aus einem XML File in GDocs importieren.

  9. Hallo Björn, ich muss ganz ehrlich gestehen, dass ich die beiden weiteren Teile noch nicht veröffentlicht habe. Das Interesse besteht aber anscheinend noch immer an dem Thema. Ich werd mich in den nächsten Wochen einmal aufraffen unm das Thema abzurunden. :)

  10. Coole Tipps und ich freue mich auf weitere. :) Hinter den Feldangaben muss allerdings ein Semikolon, anstatt ein Komma. Sonst bekomme ich Parsingfehler.

  1. Pingback: Die Woche in Links (12/12) | gumpelMEDIA

  2. Pingback: Schnelle Keywordabfragen über Google Suggest - Onlinemarketing - eCommerce - Web | www.anja-modes.de

Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.Benötigte Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Konferenz für Suchmaschinenoptimierung