Re: Polska AltaVista, indeksowanie, bylo: Jeszcze jedno pytanko

Autor: Wojtek Sylwestrzak (wojsyl_at_icm.edu.pl)
Data: Sat 22 Feb 1997 - 13:10:32 MET


In pl.listserv.polip Maciek Uhlig <muhlig_at_us.edu.pl> wrote:
: Prosze mnie oswiecic, jesli mysle nie tak, jak trzeba.

: robots.txt nalezy do mechanizmu antyrobotowego. To znaczy nie wpuszcza do
: penych katalogow i plikow. Do pozostalych wpuszcza. Tam robot szuka czego
: popadnie i sobie potem indeksuje. Wszystko. I to tez jest do niczego.

pomysl z robots.txt powstal juz ladne kilka lat temu, kiedy ludzie
jeszcze nie mieli takiego doswiadczenia w indeksowaniu jak dzis.
Obecnie opracowywany jest rozszerzony 'robot exclusion standard'
m.in. przez Excite, Inktomi , Infoseek, Lycos, Netscape i Webcrawler.

: Moim zdaniem powinno byc tak: w stronie WWW zaszyte sa slowa kluczowe. Takie,
: ktore webmaster zyczy sobie, aby byly widziane na zewnatrz. Robot pobiera tylko
: te slowa kluczowe i wedlug nich indeksuje. Wyszukiwanie jest wtedy owocne, bo
: dostaje sie to, co trzeba.

Tak dzialac moze na przyklad infoseek. jesli podasz mu wyrazenie w postaci:
keyword:value (na przyklad author:Uhlig), to zwroci Ci strony
zawierajace slowo "Uhlig" w tagu META o nazwie "author".
Zobacz http://infoseek.icm.edu.pl:8000/help/meta.html
W pewnym zakresie podobnie moze dzialac tez altavista (ale tylko dla
name="description" lub "keywords")

: Czyli polaczenie WAIS i WWW. Czy cos takiego jest zralizowane?

Tak - w pewnym sensie realisuje to 'standard' sitelist.txt opracowywany
przez Excite. Uzywa go miedzy innymi Infoseek. Mechanizm ten zaklada istnienie
obok /robots.txt pliku /sitelist.txt, zawierajacego spis chronologicznie
posortowanych stron na danymA serwerze WWW. nazwie kazdej strony
towarzyszyc powinna data ostatniej modyfikacji oraz jej rozmiar,
a w dalszej kolejnosci slowa kluczowe.
Takie rozwiazanie nie tylko ulatiwa przeszukiwanie, ale co wazne
bardzo zmniejsza obciazenie serwerow i lacz.

Poniewaz jednak pomysl jest swiezy, nie przyjal sie jeszcze szeroko
(i nie wiadomo czy przyjmie). Moim zdaniem jest to swietne rozwiazanie,
jednak naklada dodatkowe obowiazku na serwer WWW (lub jego administratora).

--w



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:03:00 MET DST