Googlebot

Googlebot

A Googlebot is a search bot used by Google. It collects documents from the web to build a searchable index for the Google search engine.

If a webmaster wishes to restrict the information on their site available to a Googlebot, or another well-behaved spider, they can do so with the appropriate directives in a robots.txt file, [ [http://www.google.com/support/webmasters/bin/answer.py?answer=33570&topic=8846 How do I request that Google not crawl parts or all of my site? ] ] or by adding the meta tag to the webpage. [ [http://www.google.com/support/webmasters/bin/answer.py?answer=33581&topic=8460 How do I prevent Googlebot from following links on my pages? ] ] Googlebot requests to Web servers are discernible from their user-agent string 'Googlebot'.

Googlebot has two versions, deepbot and freshbot. Deepbot, the deep crawler, tries to follow every link on the web and download as many pages as it can to the Google indexers. It completes this process about once a month. Freshbot crawls the web looking for fresh content. It visits websites that change frequently, according to how frequently they change. Currently Googlebot only follows HREF links and SRC links. Verify source|date=July 2008

Googlebot discovers pages by harvesting all of the links on every page it finds. It then follows these links to other web pages. New web pages must be linked to from another known page on the web in order to be crawled and indexed.

A problem which webmasters have often noted with the Googlebot is that it takes up an enormous amount of bandwidth. This can cause websites to exceed their bandwidth limit and be taken down temporarily. This is especially troublesome for mirror sites which host many gigabytes of data. Google provides "Webmaster Tools" that allow website owners to throttle the crawl rate. [https://www.google.com/webmasters/tools/docs/en/about.html]

ee also

*Mediabot
*Robots Exclusion Standard

References

External links

* [http://www.google.com/bot.html Google's official Googlebot FAQ]


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать реферат

Look at other dictionaries:

  • Googlebot — ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web und die Bildsuche von Google auffindbar macht. Inhaltsverzeichnis 1 Arbeitsweise …   Deutsch Wikipedia

  • Googlebot — Тип Поисковый робот Автор Google Сайт GoogleBot FAQ Googlebot поисковый робот компании Google, используемый для сканирования мировой сети и пополнения поискового индекса системы Google …   Википедия

  • Googlebot — es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google. Si un webmaster no quiere que su página sea descargada por un Googlebot, puede insertar un texto… …   Wikipedia Español

  • Googlebot — Les googlebots sont des robots d indexation utilisés par le moteur de recherche Google afin de recenser et indexer les pages web. La chaîne de caractères permettant de les identifier en tant que User Agent est, selon la tâche qu ils effectuent, l …   Wikipédia en Français

  • Googlebot — ● np. m. ►WEB►MOTREC Nom du robot du moteur de recherche Google …   Dictionnaire d'informatique francophone

  • Googlebot — Name (User Agent) des Spiders von Google. Bemerkenswert ist, dass Google die Zahl seiner Spider Anfang 2004 offenbar drastisch erhöht hat. Neu ist auch, dass ein Typ des Googlebots mit einer Mozilla Kennung unterwegs ist. Es steht zu vermuten,… …   SEO Wörterbuch

  • Google bot — Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web und die Bildsuche von Google auffindbar macht. Inhaltsverzeichnis 1… …   Deutsch Wikipedia

  • Robots.txt — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… …   Deutsch Wikipedia

  • Robots Exclusion Standard — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… …   Deutsch Wikipedia

  • User-Agent — Pour les articles homonymes, voir Agent. Un user agent est une application cliente utilisée avec un protocole réseau particulier ; l expression est plus généralement employée comme référence pour celles qui accèdent au World Wide Web. Les… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”