Hakurobotti

Hakurobotti (engl. web crawler) on bottiohjelma[1], joka hakee selaimen tapaan webin palvelimilla olevia verkkosivuja, ja indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja.[2]

Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Robotit voivat indeksoida koko tekstin tai otsikon ja pari ensimmäistä lausetta tai URL-osoitteet tai META-elementin. Ne poistavat tekstistä yleiset sanat (prepositiot, artikkelit jne.) ja sanojen päätteet ja muodostavat tietokannan, jossa jokainen termi viittaa ko. termiin viittaavaan dokumenttiin.

Koska jotkin hakurobotit antavat liian paljon linkkejä, on kehitetty rypästäviä eli klusteroivia hakurobotteja, jotka eivät ilmoita samaa linkkiä kahdesti ja jotka ryhmittelevät hakemansa linkit.

Hakurobottien toimintaa voidaan rajoittaa robots.txt-tiedostolla. Tunnettujen hakukoneiden hakurobotteja voidaan sen avulla estää hakemasta yksittäisiä verkkosivuja, niitä sisältäviä hakemistoja tai kaikkia verkkotunnuksella olevia sivuja.[2]

Tunnettuja hakurobotteja

  • Scooter
  • Googlebot
  • Slurp
  • Teoma
  • MSNbot
  • Heritrix

Lähteet

  1. What is a web crawler? | How web spiders work cloudflare.com. Viitattu 14.4.2024. (englanniksi)
  2. a b google.com: Googlen indeksointirobotit support.google.com. Viitattu 28.7.2017.