Crawling-Services

Wir crawlen für Sie alle Arten von Websites. Egal ob es sich um Internetauftritte von Unternehmen oder Organisationen, um Social Media Websites, um private Homepages, um Portale oder Marktplätze handelt. Unsere Crawler-Technologie ist in der Lage jeder Art von Websites zu crawlen und die Ergebnisse in Tabellen und Datenbanken zu speichern. Hierbei können wir Ihnen die gewünschten Daten in verschiedenen Formaten liefern, wie zum Beispiel csv-, txt-, oder xls-Dateien, JSON (JavaScript Object Notation), XML (Extensible Markup Language), SOAP (Simple Object Access Protocol) etc.

Beim Website-Crawling spielt es keine Rolle, ob das Crawling für einzelne Websites oder für eine große Menge an Websites durchgeführt werden soll. Unsere flexible Crawler-Infrastruktur lässt sich schnell an verschiedene Anforderungen anpassen.

Das Crawlen von Websites besteht zum einen aus der Erfassung der Inhalte der einzelnen Webseiten. Zum anderen werden beim crawlen auch die hierarchischen Strukturen jedes einzelnen Internetauftrittes erfasst. Dies wird in der Fachsprache Web-Structure-Mining genannt. Besonders wichtig ist das Web-Structure-Mining bei der Erfassung von Produktdaten, weil wir auf diese Weise die Einteilung der Produkte in Kategorien und Unterkategorien erfassen können, genauso wie sie die einzelnen Anbieter auf ihren Websites vornehmen.

Bezüglich der Content-Extraktion für jede einzelne Webseite können Sie spezifisch festlegen, ob nur die für den Besucher sichtbaren Texte und Grafiken extrahiert werden sollen, oder ob Sie auch die in den Quelltexten aufgeführten Metatags (zum Beispiel Metatag Keyword, Metatag Description etc.) erfassen möchten.

Bei der Texterfassung können Sie festlegen, ob Sie den vollständigen Inhalt aller Webseiten der zu erfassenden Websites erhalten möchten, oder ob wir die allgemeineren Texte wie die Navigation, den Footer, den Header, mögliche Werbeeinblendungen etc. ausfiltern, und nur die Kerninhalte jeder Webseite extrahieren sollen.

Auch bei den Abbildungen (Fotos, Grafiken, Zeichnungen, gif-, jpg- oder png-Dateien) ist es möglich, entweder alle Abbildungen komplett zu erfassen oder nur die zum eigentlichen Kernthema jeder Webseite gehörenden Grafiken zu selektieren. Hierbei kann unsere Crawler-Technologie so konfiguriert werden, dass nur diejenigen Grafiken selektiert werden, die bestimmte Kriterien erfüllen, zum Beispiel in Bezug auf die der Website verwendeten Dateitypen, Dateigrößen, Grüßen, Proportionen, Anzahl der verwendeten Farben, Dateinamen, Alt-Texte etc.

Die gecrawlten Textabschnitte, die auf den verschiedenen Websites erfasst werden, können weiter erschlossen werden. Zum Beispiel ist es möglich sie nach bestimmten Begriffen, Eigenschaften oder Strukturmerkmalen zu durchsuchen und diese als separate Datenfelder zu speichern.