Autor: Michal Rolski (rolski_at_sprocket.ict.pwr.wroc.pl)
Data: Wed 05 Feb 1997 - 17:16:13 MET
Wojtek Sylwestrzak (wojsyl_at_icm.edu.pl) wrote:
: In pl.comp.www Michal Rolski <rolski_at_sprocket.ict.pwr.wroc.pl> wrote:
: : Poza tym altavista i inne wyszukiwarki zachodnie ( w tym polski Infoseek )
: : nie rozrozniaja standardow polskich liter, jak wpisze sie np. slowo
: W tym miejscu wypada przypomniec, ze standard jest jeden. ISO-8859-2.
Przepraszam, powinno byc sposobow kodowania.
: : "zlacze" to zostana znalezione tylko strony, na ktroych wystepuje to
: : slowo w jezyku polskawym, natomiast nie zostana znalezione te slowa
: : gdzie polskie litery zostaly zakodowane w roznych standardach,
: : takich jak ISO i CP. Jedynie polski NEToskop na http://www.chip.pl/
: Hm, sprobowalem - np. Lech Wałęsa.
: W odpowiedzi dostalem (na samym poczatku):
: LECH WALESA http://www.pol.pl:80/lawgov._p/walesa.htm
: LECH WALESA http://www.pol.pl:80/PL01/lawgov._p/walesa.htm
: LECH WALESA http://www.pol.pl:80/PL09/lawgov._p/walesa.htm
: LECH WALESA http://www.pol.pl:80/PL10/lawgov._p/walesa.htm
: Oczywiscie to wszystko jest ta sama strona, tylko w roznym
: kodowaniu. Czy liczycie to jako oddzielne dokumenty ?
A czy jakis inny robot jest w stanie stwierdzic, ze to jest ta sama
strona tylko w roznym kodowaniu i umiescic je
w swojej bazie jako jedna i ta sama strona, a nie
jako oddzielne strony ? Szczerze mowiac watpie.
: Liczba skatalogowanych stron WWW: 238662
: Domyslam sie, ze to chodzi tylko o strony w HTML ?
: Jesli tak, to infoseek ma 2 razy wiecej ...
: a jesli jeszcze liczycie wielokrotnie te same strony, rozniace
: sie tylko sposobem kodowania liter ...
Nie uwierze, ze Infoseek rozpoznaje polskie kodowanie i jest w stanie
odfiltrowac powielajace sie strony w roznym kodowaniu.
Dlaczego na pytanie "walesa", ale gdzie l i a sa w ISO,
infoseek zwraca tylko dwie strony?
: No wlasnie - co to za liczba to 238662 ?
Jest to liczba stron, ktore zostaly zakwalifikowane jako text/html.
To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:02:27 MET DST