polip: Re: System gromadzenia dokumentów

Re: System gromadzenia dokumentów

Autor: Darius Jack (dariusz_at_usa.net)
Data: Sat 31 Oct 1998 - 22:00:07 MET

Następna wiadomość: Darius Jack: "Re: Wirus przez WWW jest mozliwy. Re: 25 sek. temu w Trojce o Win A Holiday"
Wiadomości sortowane wg: [ datay ] [ wątku ] [ tematu ] [ autora ] [ załącznik ]

nwtn wrote:
>
> Zapraszam do
> http://www.nawratronik.com.pl/skryptor.htm
> gdzie znajdziesz opis programu oraz demo
> pozdrowienia
> www.nawratronik.com.pl
Pozdrowienia dla Nawratronik Katowice.
Przeczytalem opis systemu i nie bardzo rozumiem jego dzialanie.

Jezeli polega ono na skanowaniu dokumentow jako JPEG/GIF i nastepnie
przetwarzanie OCR do postaci ASCII + kompresja , to takie systemy sa.

BTW, po co skanowac dokument drukowany, jezeli mozna go zarchiwizowac
w takiej postaci jak jest, bez drukowania i skanowania + OCR.
Zrodlem dokumentow jest obecnie komputer , na ktorym sa pisane pod
edytorem, lub tworzone przez program, system ( faktury), te dokumenty
maja postac tekstowa a nie graficzna, zatem po co opisana powyzej
procedura ?

Jezeli juz mamy te 1.000.000 dokumentow to jest na rynku 100
wyszukiwarek pelnotekstowych, ktore sortuja, ranguja, filtruja dokumenty
na 100 sposobow.

Ale problem przeszukiwania dokumentow z polami typu "nie free-text"
jest troche trudniejszy.
Sam OCR nie jest w stanie zwiazac opisu pola z wartoscia wpisana do tego
pola.
Zatem w wyszukiwaniu pelnotekstowym informacja zapisana w tym polu jest
tracona, jako niezwiazana.

Np. pole kupujacy : imie, nazwisko, adres : (konkretne dane)
jest tracone w przetwarzaniu pelnotekstowym, gdyz
wyszukiwarka jedynie stwierdzi bliskosc key search: kupujacy : Franek
Chudy, ( ale bledy wynikna, gdy Kupujacy jest w wierszu pierwszym, potem
sa inne wpisy w tym wierszu
a nastepnie w wierszu 2 pojawia sie imie , nazwisko.

Wtedy operator adjacency lub NEAR (Verity) da niska range dla dokumentu
i dokument moze nie zostac wyszukany.

Wystarczy bowiem zmiana konstrukcji formularza dokumentu , gdzie
kupujacy : imie i nazwisko - pojawia sie w jednym wierszu i wynik
poszukiwania bedzie calkiem inny .

Czyli zalecam ostroznosc w manipulowaniu zeskanowanymi dokumentami
po obrobce OCR . Brak struktury i opisu pol , szczegolnie, gdy mamy
wiele roznych dokumentow o roznych strukturach, czyni proces
wyszukiwania bezuzyteczny.

Po prostu na wyszukiwanie bedzie mial wplyw uklad graficzny dokumentu ,
a nie zawarta w nim tresc w oznaczonych polach.

Piszemy teraz system wyszukiwania pelnotekstowego doskonalszy od VERITY
TOPIC z bardziej inteligentnymi opcjami wyszukiwania.

jack

dariusz_at_usa.net

Następna wiadomość: Darius Jack: "Re: Wirus przez WWW jest mozliwy. Re: 25 sek. temu w Trojce o Win A Holiday"
Wiadomości sortowane wg: [ datay ] [ wątku ] [ tematu ] [ autora ] [ załącznik ]

To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:17:12 MET DST