Informationen aus dem Internet zu sammeln ist ab und an nicht ganz unwichtig. Besonders in beruflicher Hinsicht. Früher musste man hierfür mühsam copy & paste Arbeit leisten. Eine Aufgabe, die man mit Vorliebe an den Praktikanten oder den Junior weitergegeben hat. Aber anstatt sich unnötig beim “Stift” unbeliebt zu machen, kann man das Thema auch wesentlich schneller, effizienter und vor allen “fehlerfreier” abhandeln. Das Zauberwort lautet “Web Scraping”.

Per Definition ist Web Scraping nichts anderes als das Sammeln, speicher und verarbeiten von Daten aus dem Netz. Wie gesagt, man kann es mühsam von Hand mit STRG+C und STRG+V erledigen oder sich Tools bedienen, die es im Netz gibt. Viele sind kostenpflichtig, aber es gibt auch ein paar sehr gute kostenfreie Tools. Und auf diese Tools wollen wir uns in diesem Artikel fokusieren.

Die Idee für diesen Post kam mir durch eine solche Aufgabe, die ich kürzlich zu erledigen hatte. Leider erst NACHDEM ich mich mühsam hingesetzt habe und einen Großteil manuell von der Seite extrhiert habe. Damit mir so ein Task das nächste Mal nicht so viele graue Haare beschert, habe ich mich direkt im Anschluss an den Task hingesetzt und recherchiert, welche Optionen das Internet mir bietet und bin auch schnell fündig geworden. Es gibt einige Tools und Plugins für Chrome die einem die Aufgabe wesentlich leichter gemacht hätten. 

Easy Web Data Scraper

Einen guten Start in das Thema Web Scraping macht man mit der Chrome Extension “Easy Web Data Scraper”. Dieses Plugin für den Chrome Browser kann man getrost als die “Schrotflinte” unter den Web Scrapern bezeichnen, denn dieses Plugin mach kurzen Prozess mit jeder Art von Webseite und deren Daten. Und das mit nur einem Klick. Einfach auf das Icon klicken und schon legt dieses Tool los und versucht alle Daten zu sammeln, die es auf der aktuell offenen Webseite findet. Das ist eine sehr bequeme und vor allem sehr schnelle Art von Webseiten Daten zu sammeln. Nach wenigen Momenten hat das Plugin seine Daten zusammen und bietet in der Voransicht das Ergebnis an. Danach kann der Nutzer entscheiden, ob er die Daten in CSV-Form, als XLS-Datei oder in den Zwischenspeicher laden will. So gesehen ist das Plugin Easy Web Data Scraper das einfachste Tool in der Bedienung. Leider hat das Tool auch ein paar Minuspunkte:

Datengenauigkeit:

Man hat als User keinen direkten Einfluss auf das was das Tool an Daten sammelt. “Take what you get” scheint bei der Entwicklung des Plugins eine wesentliche Rolle gespielt zu haben. So kann es durchaus passieren, dass das Tool einfach nur unbrauchbare Daten sammelt.

Komplexere Scrapings

Komplexere Scrapings sind mit dem Plugin nicht möglich. Man kann ein Scraping nicht auf die eigenen Bedürfnisse zuscheiden mangels Einstellmöglichkeiten. Ebenso ist es nicht möglich Backgroundimages die mittels CSS eingebunden sind zu scrapen. 

Octoparse

Wo Easy Web Data Scraper seine Grenzen hat kommt Octoparse ins Spiel. Die Software bietet wesentlich mehr Umfang und individuelle Einstellmöglichkeiten. Bis zu 10 Scraping-Projekte sind in der kostenlosen Basisversion möglich. Die Software ist für Mac und Windows verfügbar und kann nach einer kostenlosen Registrierung genutzt werden.

Octoparse bietet neben einer super intuitiven Benutzeroberfläche auch einen sehr mächtigen “Auto-Detect” Modus der auf Anhieb schon eine Menge Daten erkennt und markiert. Ebenso erkennt Octoparse auch Paginierungen und bietet dem Benutzer leicht verständliche Hilfestellungen. Wer darüber hinaus Scraping Prozesse initiieren will kann dies dank der Click n Drop Meachnik des Tools leicht tun. Aber auch komplexere Einstellungen und Prozesse gehen relativ unkompliziert von der Hand. Auch Hintergrundbilder lassen sich mit Octoparse im Gegensatz zum Plug Easy Web Data Scraper per URL Pfad extraieren, was gerade bei bestimmten CMS Typen sehr nützlich ist. 

Zudem gibt es bei Octoparse auch einige Tutorial Videos auf Youtube die einem den Umgang mit dem Tool veranschaulichen und den Einstieg in das Webscrapen vereinfachen.

Combined Power – Tools kombinieren

Die wahre Power (zumindest für mich) war die Kombination beider Tools, gerade weil Easy Web Data Scraper doch um einiges schneller ist schnell eine große Menge an URLs zu scrapen, während Octoparse für die etwas komplizierteren Scraps seinen Dienst tut.

Fazit:

Wenn man Daten aus dem Web sammeln möchte, dann sind solche Web Scraper hilfreiche Tools, die einem eine Menge Zeit und Nerven sparen können. 

Photo by Carlos Muza on Unsplash

Teile diesen Artikel