Stop lista (wyszukiwarki)

Wikipedia:Weryfikowalność
Ten artykuł od 2011-05 wymaga zweryfikowania podanych informacji.
Należy podać wiarygodne źródła w formie przypisów bibliograficznych.
Część lub nawet wszystkie informacje w artykule mogą być nieprawdziwe. Jako pozbawione źródeł mogą zostać zakwestionowane i usunięte.
Sprawdź w źródłach: Encyklopedia PWN • Google Books • Google Scholar • Federacja Bibliotek Cyfrowych • BazHum • BazTech • RCIN • Internet Archive (texts / inlibrary)
Po wyeliminowaniu niedoskonałości należy usunąć szablon {{Dopracować}} z tego artykułu.

Stop lista (ang. stop word) – lista słów odrzucanych przez wyszukiwarki internetowe w celu zredukowania wielkości zbiorów.

Są to słowa o małym znaczeniu (spójniki: i, oraz, lub) oraz słowa popularne (mp3, sex), czyli niewpływające na identyfikację dokumentu. Listy takie można utworzyć dla określonej dziedziny lub dla określonego języka. Istnieją stop-listy dla języka angielskiego, zawierające ok. 450 słów.

Usuwanie wyrazów nieznaczących z tekstu może się odbywać w następujący sposób:

  • słownikowy – z tekstu usuwane są wyrazy wymienione w specjalnym słowniku,
  • statystyczny – z tekstu usuwane są wyrazy, których częstość występowania znajduje się w założonym przedziale,
  • hybrydowy – połączenie powyższych technik.

Linki zewnętrzne

  • Pełnotekstowe słowa stopujące w MySQL
  • Polish Stop Words
  • Zbiór słów stop w 29 językach (archive)