Hab jetzt grad gesehen dass der ca. 5 Monate alte Rekord von "onlinen Mitgliedern" im Blackboard geknackt wurde.
Hab ne riesen freude! <laughing><partytime> <ROFL>
Gruzzi
Jery, dessen Hirnaktivität heute eingeschränkt ist
Hab jetzt grad gesehen dass der ca. 5 Monate alte Rekord von "onlinen Mitgliedern" im Blackboard geknackt wurde.
Hab ne riesen freude! <laughing><partytime> <ROFL>
Gruzzi
Jery, dessen Hirnaktivität heute eingeschränkt ist
und hast du gesehn wie die anzahl registrierter Mitglieder wächst????
jaja... die Familie wird grösser...
Bestimmt wegen dem Link bei Hondapower
cool, schön zu sehen
weiter so .... go for gold
liegt sicher dran weil ich nen HHBB kleber an meinem heck habe....
ZitatRekord: 101 Benutzer am 28.06.2007 02:46.
ZitatOriginal von Jery
Ein Webcrawler (auch Spider oder Robot, kurz Bot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind beispielsweise das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen.
Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden. In der Praxis wird jedoch oft eine Auswahl getroffen, der Prozess irgendwann beendet und von vorne begonnen.
Webcrawler sind eine spezielle Art von Bots und werden auch als Spinnen bezeichnet, da sie sich wie diese in einem Netz fortbewegen.
Thematisch fokussierte Webcrawler werden als focused crawlers bzw. fokussierte Web Crawler bezeichnet. Zentraler Unterschied zu universellen Crawlern ist dabei, dass der fokussierte Crawler über Hintergrundwissen und somit über eine Art künstliche Intelligenz verfügt. Die Fokussierung der Web-Suche wird einerseits durch die Klassifizierung einer Webseite an sich und die Klassifizierung der einzelnen Hyperlinks realisiert. Dadurch findet der fokussierte Crawler den besten Weg durch das Web und indiziert nur (für ein Thema bzw. Domäne) relevante Bereiche des Webs. Hürden bei der praktischen Umsetzung derartiger Web Crawler sind neben den - auch für universelle Web Crawler auftretenden Probleme Spam, ständige Veränderung des Webs, Deep Web und Ranking-Manipulation - vor allem nicht-verlinkte Teilbereiche und das Training der Klassifizierer.
Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen. Dabei werden verschiedene Ranking-Algorithmen eingesetzt. Webcrawler werden auch zur Datenschürfung (data mining) und zur Untersuchung des Internets (Webometrie) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein.
Ein Großteil des gesamten Internets wird von Webcrawlern und damit auch von öffentlichen Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar sind. Man spricht bei diesen Bereichen auch vom „Deep Web“.
Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indizieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält.
Eine besondere Form von Webcrawlern sind Software-Agenten, bei denen eine Menge von autonomen Programmen das Web gemeinsam durchsuchen.
Ebenfalls eine Sonderform der Webcrawler sind Harvester (für „Erntemaschine“). Diese Bezeichnung wird für Software verwendet, die das Internet (WWW, Usenet usw.) nach E-Mail-Adressen absucht und diese „erntet“. So werden elektronische Adressen gesammelt und können danach vermarktet werden. Die Folge sind i. d. R., vor allem aber bei Spambots, Werbe-E-Mails (Spam). Daher wird von der früher gängigen Praxis, auf Internetseiten E-Mail-Adressen als Kontaktmöglichkeit per mailto:-Link anzugeben, immer häufiger Abstand genommen; manchmal werden die Adressen sogar durch den Einschub von Leerzeichen oder Wörtern für die Bots unlesbar gemacht. So wird a@example.com zu a (at) example (dot) com.
Es gibt auch spezielle Webseiten, sogenannte Teergruben, die den Harvestern falsche Informationen liefern und diese zusätzlich stark ausbremsen.
AGGRO weiss alles... :D:D:D
häsch informatikkurs gmacht?
<confused>, ich nehm die blaue Pille.
:Dschmacko
Das isch nur, will ich jetzt au chli meh online bin
aggro = copy/paste informatiker!
Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich kostenlos und nimm an unserer Community teil!