Re: Nareszcie pelna...

Autor: Darius Jack (dariusz_at_usa.net)
Data: Fri 30 Oct 1998 - 16:08:17 MET


Jaroslaw Zielinski wrote:
>
> Darius Jack wrote:
> >
> > A sortowanie , wyszukiwanie i inna obrobka to jeden szybszy komputer.
>
> Przepraszam, zrozumialem juz ze wypowiadajac sie na temat systemow
> wyszukiwania nie bardzo dbasz o fakty, ale czy zdajesz sobie wlasnie
> sprawe z tego, co wlasnie napisales? Uwazasz za prosta operacje
> sortowania, wyszukiwania i czytania miliona listow z Polski dziennie w
> obcym - dla Amerykanow - jezyku?
>
> Jaroslaw Zielinski
>
Ja pisalem, ze opisany Echelon to robi.
Jak to moze robic.
1. Sortowanie :
   wedlug nadawcy
   wedlug odbiorcy
   wedlug daty
   + dlugosc postu

ale przed sortowaniem - inteligentna indeksacja upraszcza proces.

Wyszukiwanie

    najpierw zindenksowanie
    wedlug tematow
    wedlug tresci

Potem dodanie slow kluczowych ( .. lista)
Slownika wyrazow blizkoznacznych/ synonimow
Wyszukiwanie rozmyte /skojarzeniowe .

Zapuszczenie skryptu i po godzinie jest caly raport nt. 1000.000 listow.

Takie cos robi deja news dla usenetu i to bezplatnie.

> PS. Digital AltaVista w lutym 1998 roku miala 32 miliony stron World
> Wide Web. No tak, to w sumie "jeden szybszy komputer"...

Z tych 32 milionow stron wystarczy odczedzic strony nieakatywne i
zostaje 1% stron, ktore ulegaja czestej aktualizacji .
Potem je zindenksowac ( wedlug roznych kryteriow) + troche
inteligentnego softu do obrobki plikow ASCII i otrzymujemy
bardziej efektywny search niz Alta Vista.

Taki wlasnie serch engine pisze .
Jack



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:16:58 MET DST