VERITY TOPICS seminarium c.d.

Autor: Darius Jack (dariusz_at_USA.NET)
Data: Sun 01 Nov 1998 - 13:33:23 MET


Z uwagi na duze zainteresowanie procedurami wyszukiwania przez VERITY
TOPICS, procedurami tworzenia tematow (TOPICS), jak i okreslaniem wag
dla podtematow (sub-topics) w Verity Topics , istnieje mozliwosc
zorganizowania szkolenia w firmach zainsteresowanych wdrozeniem
VERITY TOPICS u siebie i innych produktow Verity.

A teraz co to sa VERITY TOPICS.
Verity Inc., przyjela zalozenie , ze wiedze udokumentowana na pismie
mozna przedstawic w postaci baz danych , a konkretnie drzew
semantyczno-strukturalnych, ktorych galaz wyzsza oznacza generalizacje
tematu, a galaz nizsza oznacza uszczegolowienie tematu (sub-topics).
Verity zaklada, ze mozna utworzyc ( lub utworzyla) ok. 20.000 tematow
(topics), utworzone dla ktorych drzewa obejma obecny stan wiedzy.
Grupy tematow (drzew) beda stanowily bazy wiedzy.

Poza tym, ze TOPICS maja ulatwiac proces wyszukiwania i z pewnoscia
ulatwiaja, poszczegolne galezie zawieraja wagi, lub przez analogie z
sieciami neuronowami - wspolczynniki korelacji.

Problem 1:
Polega na tworzeniu drzew dla TOPIKOW
Problem II :
Polega na okreslaniu wag dla sub-topics.

Wagi sa zadane z gory, ale uzytkownik moze je modyfikowac, moze rowniez
zmieniac , rozbudowywac drzewa, obcinac jego galezie.

Tak wiec problem wyszukiwania zostal przeniesiony na problem
generalizacji search terms.

Szukajac tematu i znajdujac kilka dokumentow, zakladamy, ze szukajac
dokumentow na ogolniejszy temat, znajdziemy wiecej dokumentow , ktore
wzbogaca nasza wiedze.

Poza tym Verity Topics to bez TOPICS nadal wyszukiwarka pelnotekstowa +
wyszukiwanie po polach , obejmujaca ok. 50 z modyfikacjami, operatorow
wyszukiwania.

Wszystkie te operatory opisze w kolejnych postach i przedstawie swoje
algorytmy dla kazdego operatora wyszukiwania.

Pozwoli to tak na zrozumienie procesu inteligentnego wyszukiwania, jak i
na porownanie mozliwosci, opcji, z innymi wyszukiwarkami, poniewaz
operatory wyszukiwania z roznych wyszukiwarek, o podobnej funkcji maja
czesto inna nazwe.

Tak wiec VERITY TOPICS zaklada, ze wiedze mozna przedstawic w postaci
zbiorow rozlacznych struktur drzewiastych .

Te teze trzebaby chyba sprobowac udowodnic.

Mianowice trudno przyjac , ze drzewa zbudowane
dla
TOPICS

NAUKA TECHNIKA

Nie zawieraja wspolnych galezi na ktoryms tam poziomie.

Tak samo naukowiec bedacy jednoczesnie znanym muzykiem, zostanie
zakwalifikowany do co najmniej dwoch drzew

NAUKA MUZYKA

Tak wiec moge jedynie oczekiwac od VERITY uzasadnienia swojej tezy.

Gdyz jak dotychczas mozna uznac VERITY TOPIS jako probe szufladkowania
POJEC SEMANTYCZNYCH

Brak jest znanych procedur , automatycznego nadawania wag dla
poszczegolnych galezi drzew TOPIKOW.

Nawet , jezeli przyjmiemy, ze wojskowy nada rangi dla 100- 1000 drzew
to gdy zacznie szukac tematu objetego 1001 drzewem to rangi nie beda
dzialaly.

A po co sa rangi i wartosciowanie wyszukanych dokumentow.

Rangi sa po to, aby wyszukane dokumenty wyswietlic w okreslonej
kolejnosci.

Jezeli mamy 10 wyszukanych dokumentow to nie ma problemu, mozemy je
wszystkie wyswietlic i przeczytac.

Jezeli znalezlismy 100 dokumentow i jeszcze poprzez interfejs
Internetowy WWW, to trudno zakladac , ze bedziemy sciagali te wszystkie
100 dokumentow i je kolejno czytali.

Tak wiec VERITY TOPIC przenosi proces wyszukiwania na 2 inne plaszczyzny
generalizacji i agregacji search terms, i sterowania sortowaniem
otrzymanych wynikow.

Trudno mi sie zgodzic z teza, ze zbiory TOPICS to bazy wiedzy, bardziej
nalezytym okresleniem byloby: zbiory skojarzonej informacji.

Przeciez , gdy otworzymy Encyklopedie, to wlasnie Encyklopedia stanowi
bardzo rozbudowany zbior TOPICS

np. rownia pochyla : generalizacja: maszyna prosta (+ description)
                        2.generalizacja: maszyny
                        3.generalizacja: przemysl+technika

rozwartokatny trojkat : generalizacja : trojkat
                        2.generalizacja : figura geometryczna
                        3. generalizacja: geometria
                
rozumowanie: generalizacja: (dziedzina) logika
                        2. generalizacja: proces rozwiazywania
zagadnien wedlug
wnioskowania lub wynikania

itp. itd.

Ale nawet uczen znajacy na pamiec cala encyklopedie od poczatku do konca
i odwrotnie nie moze sie zglosic do rektora uczelni i powiedziec, ze
mam duza wiedze i dlatego prosze mnie przyjac na studia.

Wiedza encyklopedyczna to inaczej informacja, przydatna dla uczniow,
przy rozwiazywaniu konkursow, krzyzowek, ale to jest nadal
usystematyzowana informacja wedlug z gory zadanych TOPICS
i zawiera strukture nastepujaca:

TOPICS - UP-TOPIC ( generalizacja) + description

zatem jezeli mowie o bazie wiedzy, co mowie o wiedzy specjalistycznej,
a nie ogolnej , powszechnie dostepnej wiedzy, ktora ma charakter
informacji, jakkolwiek by nie mowiac, infromacje zgromadzone w 300
wydaniach gazety tez stanowia wiedze, ale te wiedze nazwiemy raczej
informacja niz wiedza specjalistyczna.

Tak wiec musimy sie okreslic , czy tworzymy VERITY TOPICS jako drzewa
strukturalne general information , czy specialized information.
Przeciez aby utworzyc drzewo specjalistyczne ( semantyczne) dla pojecia
mikrobiologia , nowotwory to wiedza np. na temat nowotworow
to iles tam terabajtow informacji zgromadzonej w National Cancer Center.

Jezeli nasz TOPIC to medycyna:
to trzeba zlinkowac wiedze/informacje z MEDLINE
itd.

Wedlug mnie, utworzenie VERITY TOPICS to zadanie kosztowniejsze,
bardziej czasochlonne od samego procesu wyszukiwania , poza tym dla
kazdego jezyka inne TOPICS, chociaz w tym przypadku mozemy korzystac z
automatycznej translacji calych drzew na dowolny jezyk .

        VERITY TOPICS seminar part 2

Jack

dariusz_at_usa.net

I pierwsze co jest konieczne dla wdrozenia VERITY TOPICS w firmie,
instytucji to dostep do slownikow tematycznych, branzowych.
I to juz na wstepie kazdy slownik utworzy TOPIC, a slowa kluczowe w
slowniku to: sub-topics
a znaczenie semantyczne dla sub-topics ( w slownikach gniazdowych) to
sub-sub-topics

Ale nie mozna zakladac ze struktury drzewiaste nie beda zawieraly
zamknietych list lub beda wolne od zapetlen.

Tak wiec istnieje mozliwosc zorganizowania seminariow dla instytucji,
firm zainteresowanych wdrozeniem VERITY TOPICS w zakresie budowania
drzew TOPICS, obliczania wag i przygotowania bazy danych ( skanowanie +
OCR) + testowania.
z powazaniem

jack

dariusz_at_usa.net



To archiwum zostało wygenerowane przez hypermail 2.1.7 : Wed 19 May 2004 - 16:17:13 MET DST