Re: Polski Infoseek (bylo: Polskie "Yahoo" ???)

Autor: Michal Rolski (rolski_at_sprocket.ict.pwr.wroc.pl)
Data: Wed 05 Feb 1997 - 17:16:13 MET


Wojtek Sylwestrzak (wojsyl_at_icm.edu.pl) wrote:
: In pl.comp.www Michal Rolski <rolski_at_sprocket.ict.pwr.wroc.pl> wrote:

: : Poza tym altavista i inne wyszukiwarki zachodnie ( w tym polski Infoseek )
: : nie rozrozniaja standardow polskich liter, jak wpisze sie np. slowo

: W tym miejscu wypada przypomniec, ze standard jest jeden. ISO-8859-2.

Przepraszam, powinno byc sposobow kodowania.

: : "zlacze" to zostana znalezione tylko strony, na ktroych wystepuje to
: : slowo w jezyku polskawym, natomiast nie zostana znalezione te slowa
: : gdzie polskie litery zostaly zakodowane w roznych standardach,
: : takich jak ISO i CP. Jedynie polski NEToskop na http://www.chip.pl/

: Hm, sprobowalem - np. Lech Wałęsa.
: W odpowiedzi dostalem (na samym poczatku):

: LECH WALESA http://www.pol.pl:80/lawgov._p/walesa.htm
: LECH WALESA http://www.pol.pl:80/PL01/lawgov._p/walesa.htm
: LECH WALESA http://www.pol.pl:80/PL09/lawgov._p/walesa.htm
: LECH WALESA http://www.pol.pl:80/PL10/lawgov._p/walesa.htm

: Oczywiscie to wszystko jest ta sama strona, tylko w roznym
: kodowaniu. Czy liczycie to jako oddzielne dokumenty ?

A czy jakis inny robot jest w stanie stwierdzic, ze to jest ta sama
strona tylko w roznym kodowaniu i umiescic je
w swojej bazie jako jedna i ta sama strona, a nie
jako oddzielne strony ? Szczerze mowiac watpie.

: Liczba skatalogowanych stron WWW: 238662
: Domyslam sie, ze to chodzi tylko o strony w HTML ?
: Jesli tak, to infoseek ma 2 razy wiecej ...
: a jesli jeszcze liczycie wielokrotnie te same strony, rozniace
: sie tylko sposobem kodowania liter ...

Nie uwierze, ze Infoseek rozpoznaje polskie kodowanie i jest w stanie
odfiltrowac powielajace sie strony w roznym kodowaniu.
Dlaczego na pytanie "walesa", ale gdzie l i a sa w ISO,
infoseek zwraca tylko dwie strony?

: No wlasnie - co to za liczba to 238662 ?

Jest to liczba stron, ktore zostaly zakwalifikowane jako text/html.



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:02:27 MET DST