Neuer Rekord von Usern im Forum

Jerry · 3. September 2004

Hab jetzt grad gesehen dass der ca. 5 Monate alte Rekord von "onlinen Mitgliedern" im Blackboard geknackt wurde.

Hab ne riesen freude! <laughing><partytime> <ROFL>

Gruzzi

Jery, dessen Hirnaktivität heute eingeschränkt ist

SID2002 · 3. September 2004

und hast du gesehn wie die anzahl registrierter Mitglieder wächst????

jaja... die Familie wird grösser...

Andre · 3. September 2004

Bestimmt wegen dem Link bei Hondapower

Mr.Petrolhead · 3. September 2004

cool, schön zu sehen

weiter so .... go for gold

SID2002 · 7. September 2004

liegt sicher dran weil ich nen HHBB kleber an meinem heck habe....

Jerry · 5. Juli 2007

Zitat

Rekord: 101 Benutzer am 28.06.2007 02:46.

AGGRO_ED9 · 5. Juli 2007

Zitat

Original von Jery

Ein Webcrawler (auch Spider oder Robot, kurz Bot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind beispielsweise das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen.

Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden. In der Praxis wird jedoch oft eine Auswahl getroffen, der Prozess irgendwann beendet und von vorne begonnen.

Webcrawler sind eine spezielle Art von Bots und werden auch als Spinnen bezeichnet, da sie sich wie diese in einem Netz fortbewegen.

Thematisch fokussierte Webcrawler werden als focused crawlers bzw. fokussierte Web Crawler bezeichnet. Zentraler Unterschied zu universellen Crawlern ist dabei, dass der fokussierte Crawler über Hintergrundwissen und somit über eine Art künstliche Intelligenz verfügt. Die Fokussierung der Web-Suche wird einerseits durch die Klassifizierung einer Webseite an sich und die Klassifizierung der einzelnen Hyperlinks realisiert. Dadurch findet der fokussierte Crawler den besten Weg durch das Web und indiziert nur (für ein Thema bzw. Domäne) relevante Bereiche des Webs. Hürden bei der praktischen Umsetzung derartiger Web Crawler sind neben den - auch für universelle Web Crawler auftretenden Probleme Spam, ständige Veränderung des Webs, Deep Web und Ranking-Manipulation - vor allem nicht-verlinkte Teilbereiche und das Training der Klassifizierer.

Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen. Dabei werden verschiedene Ranking-Algorithmen eingesetzt. Webcrawler werden auch zur Datenschürfung (data mining) und zur Untersuchung des Internets (Webometrie) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein.

Ein Großteil des gesamten Internets wird von Webcrawlern und damit auch von öffentlichen Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar sind. Man spricht bei diesen Bereichen auch vom „Deep Web“.

Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indizieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält.

Eine besondere Form von Webcrawlern sind Software-Agenten, bei denen eine Menge von autonomen Programmen das Web gemeinsam durchsuchen.

Ebenfalls eine Sonderform der Webcrawler sind Harvester (für „Erntemaschine“). Diese Bezeichnung wird für Software verwendet, die das Internet (WWW, Usenet usw.) nach E-Mail-Adressen absucht und diese „erntet“. So werden elektronische Adressen gesammelt und können danach vermarktet werden. Die Folge sind i. d. R., vor allem aber bei Spambots, Werbe-E-Mails (Spam). Daher wird von der früher gängigen Praxis, auf Internetseiten E-Mail-Adressen als Kontaktmöglichkeit per mailto:-Link anzugeben, immer häufiger Abstand genommen; manchmal werden die Adressen sogar durch den Einschub von Leerzeichen oder Wörtern für die Bots unlesbar gemacht. So wird a@example.com zu a (at) example (dot) com.

Es gibt auch spezielle Webseiten, sogenannte Teergruben, die den Harvestern falsche Informationen liefern und diese zusätzlich stark ausbremsen.

AGGRO weiss alles... :D:D:D

Jerry · 5. Juli 2007

häsch informatikkurs gmacht?

schmacko · 5. Juli 2007

<confused>, ich nehm die blaue Pille.

:Dschmacko

HondaAccordTypeS · 5. Juli 2007

Das isch nur, will ich jetzt au chli meh online bin

beelow · 6. Juli 2007

Pancho Villa · 6. Juli 2007

Jones · 6. Juli 2007

aggro = copy/paste informatiker!

Neuer Rekord von Usern im Forum

Jetzt mitmachen!

Teilen