Tezaurusy. Znaczenie próbki słów w tezaurusie języka rosyjskiego Relacje słów w tezaurusie
Technologie komputerowe
Tom 12, Wydanie Specjalne 2, 2007
TECHNOLOGIA TWORZENIA TEZAURUSA OBSZARU TEMATYCZNEGO NA PODSTAWIE INDEKSU TEMATYCZNEGO ENCYKLOPEDII
V. B. Barachnin
Instytut Technologii Obliczeniowych SB RAS, Nowosybirsk, Rosja
e-mail: [e-mail chroniony]
V. A. Nekhaeva Novosibirsk State University, Rosja e-mail: [e-mail chroniony]
W pracy opisano technologię tworzenia tezaurusa domeny obiektowej, która opiera się na nagłówku tematycznym specjalistycznej encyklopedii. Taka technologia oferuje wysokiej jakości opis dziedziny przedmiotowej przy użyciu wiarygodnych terminów, co pozwala na zbudowanie pierwszego etapu tezaurusa przy minimalnym zaangażowaniu ekspertów z tej dziedziny wiedzy. Proponowana technologia zawiera również algorytm budowania tezaurusa oraz aplikację internetową, która go implementuje.
Wstęp
Jednym z najważniejszych czynników zapewniających pomyślną realizację integracyjnych projektów badawczych jest efektywne wsparcie naukowe i informacyjne. W szczególności wspólna praca badaczy w kilku (i nie zawsze pokrewnych) specjalnościach wymaga starannego skoordynowania stosowanej terminologii, ponieważ to samo pojęcie może być oznaczane w różnych dziedzinach nauki różnymi terminami, a jeden termin – różnymi pojęciami.
Kolejnym zadaniem wsparcia informacyjnego projektu jest stworzenie zintegrowanej kartoteki opisów bibliograficznych dokumentów (tj. artykułów, książek, itp.) na temat projektu, skompilowanych poprzez połączenie zasobów współpracujących badaczy, z których każdy już zgromadził kartoteka na ten lub inny temat (obecnie takie szafki na akta są z reguły przechowywane na nośnikach elektronicznych). Aby ułatwić wyszukiwanie w indeksie kart, pożądane jest, aby słowa kluczowe charakteryzujące dokumenty były wybierane, w miarę możliwości, z jednego słownika. Do automatycznej klasyfikacji dokumentów zawartych w indeksie karty lub potencjalnie możliwych do wprowadzenia do niego z elektronicznych baz danych
© Instytut Technologii Obliczeniowych, Oddział Syberyjski Rosyjskiej Akademii Nauk, 2007.
publikacje naukowe, takie jak baza czasopism abstraktów, „Current Contents” itp., wydaje się celowe zastosowanie algorytmu indeksowania współrzędnych. Algorytm ten opiera się na uwzględnieniu cech klasyfikacyjnych zawartych w tekście terminów (słów i fraz) charakteryzujących daną dziedzinę tematyczną.
Rozwiązanie wszystkich wymienionych powyżej zadań nie jest możliwe bez stworzenia słownika terminów z zakresu tematyki, w którym należy ustalić powiązania między terminami i dokonać klasyfikacji terminów. Taki słownik nazywa się tezaurusem (szczegóły w). Tezaurus (lub tezaurus normatywny) jest słownikiem referencyjnym zawierającym wszystkie jednostki leksykalne języka wyszukiwania informacji - deskryptory (wraz ze słowami kluczowymi, które są uważane za synonimy tych deskryptorów w danym systemie wyszukiwania informacji), a deskryptory w słowniku muszą być usystematyzowane zgodnie z do znaczenia, a związki semantyczne między nimi są wyraźnie wyrażone.
Jednak skompilowanie tezaurusa „od zera” może wymagać bardzo dużego wysiłku ekspertów, którzy muszą zebrać wszystkie terminy w pełni pokrywające dany obszar tematyczny, uzgodnić ich znaczenie, nawiązać relacje i dokonać klasyfikacji. Takie trudności, które pojawiają się w rozwiązaniu ważnego, ale wciąż pomocniczego zadania, mogą negatywnie wpłynąć na perspektywy jego rozwiązania.
Opracowaliśmy i wdrożyliśmy technologię tworzenia tezaurusa w oparciu o indeks tematyczny specjalistycznych encyklopedii. Technologia ta zapewnia wysoko kwalifikowany opis tematyki przy użyciu rzetelnie zweryfikowanych terminów, co pozwala na przeprowadzenie wstępnego etapu budowy tezaurusa przy minimalnym zaangażowaniu specjalistów - ekspertów w tej dziedzinie. Szczegółową prezentację i uzasadnienie algorytmu podano w pracy. Poniżej znajduje się krótki opis algorytmu, a także aplikacji webowej, która go implementuje.
1. Algorytm tworzenia tezaurusa
Proponuje się użycie indeksu tematycznego specjalistycznej encyklopedii (lub kilku encyklopedii) jako listy słów kluczowych i fraz dla tezaurusa. Wyboru konkretnej encyklopedii dokonuje specjalista z danej dziedziny, a wybór ten zależy od celów, jakie przyświeca tworzeniu tezaurusa. Tak więc, aby rozwiązać złożone problemy środowiskowe, zaleca się stosowanie encyklopedii (lub, w przypadku ich braku, słowników encyklopedycznych) dotyczących fizyki, chemii, geologii, biologii, medycyny, matematyki itp. Przy odpowiednim wyborze indeks tematyczny jest całkiem odpowiedni, jeśli nie jako kompletną , to przynajmniej jako podstawową listę słów kluczowych, która w razie potrzeby zostanie uzupełniona.
Indeksy tematyczne większości encyklopedii ułożone są w podobny sposób – zawierają terminy będące nazwami artykułów encyklopedycznych, terminy, których definicje podano w artykułach, a także najważniejsze wyniki przytoczone w artykułach.
Jako deskryptory (tj. terminy będące nazwami klas pojęć o zbliżonym znaczeniu) przyjmuje się nazwy artykułów encyklopedycznych oraz słowa z indeksu przedmiotowego, które występują w odpowiednich
artykuły. Główną zaletą tej metody jest to, że nie trzeba być ekspertem w tej dziedzinie, aby ustalić rodzaje relacji między terminami - do zrozumienia tekstu encyklopedii wystarczy wiedza ogólna - bardziej szczegółowe informacje potrzebne w procesie klasyfikacji koncepcje zawsze można zaczerpnąć z konkretnego artykułu.
Ponieważ tworzony tezaurus jest przystosowany do pracy z wykorzystaniem protokołu Z39.50, typy łączy ustawiane są zgodnie z zaleceniami schematu /l, który wyróżnia następujące typy:
VT - połączenie z terminem macierzystym, czyli z terminem o szerszym znaczeniu;
NT - połączenie z terminem potomnym, czyli terminem o węższym znaczeniu. Komunikacja VT - NT jest wzajemnie odwrócona;
USE to link do terminu, który jest używany zamiast tego;
UF - wzajemne sprzężenie zwrotne USE;
RT - link, który definiuje powiązany termin;
LE - związek między terminami równoważnymi językowo;
WF - całkowicie identyczne terminy.
Ponadto klasyfikacja deskryptorów jest przeprowadzana zgodnie z sekcjami tego obszaru tematycznego. Wyboru konkretnego klasyfikatora, jak i wyboru encyklopedii dokonuje ekspert, a w przypadku korzystania z kilku encyklopedii z różnych dziedzin, możliwe jest zastosowanie kilku wyspecjalizowanych klasyfikatorów. Powiązania w postaci NT, RT, LE (FE) ustanawiane są między deskryptorami a sekcjami klasyfikatora, przy czym klasyfikacja powinna wykorzystywać, jeśli to możliwe, sekcje najniższego możliwego poziomu.
Następnie słowom kluczowym powiązanym z deskryptorem przez relacje BT, USE, RT, LE i FE przypisuje się ten sam numer klasyfikacyjny co deskryptor. Nie wyklucza to jednak sytuacji, że jeśli deskryptor zostanie przypisany do klasy nie najniższego poziomu, to w trakcie kolejnych prac Expert Advisor terminy kojarzone z deskryptorem przez relacje BT i USE mogą być przypisane do klasa niższego poziomu. W takim przypadku terminy te same stają się deskryptorami.
W rezultacie wszystkie terminy zawarte w indeksie przedmiotowym są klasyfikowane zgodnie z sekcjami tego obszaru tematycznego.
2. Opis aplikacji internetowej
Niemniej jednak proces konstruowania tezaurusa zgodnie z tą techniką wymaga dużej ilości rutynowej pracy, a dodatkowo wymaga udziału osoby posiadającej umiejętności programowania. Dlatego oprócz metodyki powstała aplikacja webowa, która posiada przyjazny interfejs użytkownika i obsługuje następujące funkcje:
1) automatyczne tłumaczenie informacji ze zdigitalizowanych stron indeksu tematycznego na tabelę bazy danych;
2) wybór deskryptorów z ogólnej listy terminów;
3) wyszukanie terminów związanych z danym deskryptorem i ustawienie typów linków zgodnie ze schematem Zthes.
Należy zauważyć, że do wykonania wszystkich wymienionych powyżej operacji nie są wymagane żadne umiejętności programistyczne.
Opracowana aplikacja jest uniwersalna, tj. może służyć do tworzenia tezaurusów dla różnych obszarów tematycznych. W tej chwili rekonfigurację programu z indeksu przedmiotowego jednej encyklopedii na indeks przedmiotowy innej (i dopiero na tym etapie procesy konstruowania tezaurusów z różnych obszarów tematycznych mogą się różnić) wykonuje programista, jednak praca jest trwają prace nad uzupełnieniem programu o funkcje umożliwiające użytkownikowi wykonanie tej operacji. bez umiejętności programowania.
Aplikacja działa w następujący sposób. Przetwarzanie zdigitalizowanych stron indeksowych odbywa się automatycznie. Użytkownik określa lokalizację pliku tekstowego z danymi, po czym jest on odczytywany wiersz po wierszu, a same terminy są wprowadzane do bazy danych, a także informacje o numerach stron encyklopedii, na których się one znajdują (rys. 1).
Deskryptory z ogólnej listy słów kluczowych wybiera sam użytkownik, zaznaczając wyszukiwane hasła na liście wyświetlanej na ekranie. Aplikacja \¥ob-aplikacja obsługuje również funkcję korygowania ewentualnych błędów (rys. 2). Przypomnij sobie, że wszystkie terminy znajdujące się w poświęconym mu artykule encyklopedii są uważane za powiązane z tym deskryptorem.
Aby ułatwić wyszukiwanie pokrewnych terminów, użytkownikowi pokazywana jest tylko lista słów kluczowych znajdujących się na tej samej stronie, co wybrany przez niego deskryptor (w rzeczywistości w tym celu wprowadziliśmy do bazy tylko terminy i informacje o obramowaniach strony). Oczywiście, ponieważ artykuł może nie zajmować całej strony, na liście znajdą się dodatkowe terminy. Użytkownik, nawiązywanie połączeń,
Ryż. 1. Wprowadzanie plików tekstowych z terminami z indeksu tematycznego
Nie. Tworzenie słownika deskryptorów — Microsoft Internet Explorer!
Plik Edycja Widok Ulubione Narzędzia Pomoc
Q Wstecz " © " @ |í| & yP Szukaj ^Ulubione - . w
Adres zamieszkania; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Łącza biegnące y>
fiBár JOQQ- © - I * 1 ]0 l de:*- F
1 Liczydło | 1, 13 1111111
2 Maszyna Abeleva | 1,67 1111111
3 Obiekt grupowy Abel | 1, 1149 111 1 | |
4 Dyferencjał Abelev 11.13-15 I 2, 240 111111
5 Różniczka abelowa, baza | 1, 13 1111111
6 Różniczka abelowa, dzielnik | 1, 15 | | | | | 1 |
7 Abelowa różnica normalna | 1, 14 1111111
8 Abelowa znormalizowana różnica | 1, 14 1111111
9 Różniczka abelowa, okres polarny | 1, 14 | | | | | | |
10 Dyferencjał abelowy, okres cykliczny | 1, 14 1111111
11 Abelowa idempotentna 14, 941 1111111
12 Całka abelowa 11.15-17 1111111
13 Całka abelowa, twierdzenie Abela | 1, 17 1111111
14 Całka abelowa kanoniczna |1,16||||||
16 Całka abelowa, macierz okresu |1,16||||||
15 Abelowa całka normalna | 1, 16|||||||
17 Całka abelowa, okres biegunowy | 1.16||||||| 1S Całka abelowa, okres cykliczny | 1, 16 | | | | |
19 Potencjał abelowy | 2, 239 1111111
20 Abelev grupa 11.17-20 1111111
21 Grupa abelowa jest całkowicie rozkładalna |1,19||||||
22 Podzielna grupa abelowa | 1, 19|||||||
23 Skończenie generowana grupa abelowa | 1,18 1111111
24 Grupa abelowa, kryterium Kulikova | 1, 18 | | | | | |
25 Grupa abelowa, zero | 3.1082 1111111
26 Grupa abelowa, część okresowa | 1, 18 111 | |
http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+A+1+3
j 5tartApache.bat
I Svoj.NET: Edycja PHP
J Adobe Photoshop || w
^ Lokalny intranet
EN W/mK 21:0;
Ryż. 2. Lista słów kluczowych i wybór deskryptorów
Ryż. 3. Wybór powiązanych terminów
Ryż. 4. Ustalenie rodzajów połączeń.
wybiera tylko część słów kluczowych z proponowanej listy, jednak taka automatyzacja znacznie ogranicza nakład pracy rutynowej (rys. 3).
Rodzaj powiązania deskryptora ze słowem kluczowym określamy wypełniając odpowiedni formularz (rys. 4).
Wniosek
Wydajność tego algorytmu i aplikacji internetowej została przetestowana poprzez utworzenie tezaurusa kilku sekcji z obszaru tematycznego „Matematyka” („Równania różniczkowe”, „Równania różniczkowe cząstkowe”, „Analiza numeryczna”, „Mechanika płynów” itp. .) na podstawie indeksu przedmiotowego „Encyklopedia matematyczna”. Ustalono, że do klasyfikacji terminów i ustalenia relacji między nimi wystarcza stopień licencjata (pod warunkiem, w rzadkich przypadkach, zaangażowania eksperta ze stopniem naukowym do konsultacji). Świadczy to o wysokiej skuteczności opracowanego algorytmu.
Bibliografia
Michajłow A.I., Czerny A.I., Gilyarevsky R.C. Podstawy informatyki. Moskwa: Nauka, 1968.
Barachnin W.B. Opracowanie tezaurusa obszaru tematycznego „Matematyka” // Mater, Konf. „Informatyka i technologie informacyjne w nauce, technologii i edukacji”. Część 1. Nowosybirsk; Ałmaty; Ust-Kamenogorsk, 2003, s. 111-115.
Zthes: profil Z39.50 do nawigacji w tezaurusie
http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html
Pierwszym krokiem w tworzeniu tezaurusa było wyszukanie informacji o strukturze tezaurusów, ich typach i działających programach. Drugim etapem był wybór języka programowania i schematu budowy mojego przyszłego tezaurusa. Trzecim etapem jest poszukiwanie informacji do jej wypełnienia, do tego wykorzystałem „Kompleks edukacyjno-metodologiczny Sieci komputerowe”.
Oto kilka przykładów tezaurusów (patrz Rysunek 1.1 i Rysunek 1.2):
Rysunek 1.1 – System wyszukiwania informacji „Thesaurus.com”
Rysunek 1.2 – Słowniczek terminów związanych z płcią
Po zebraniu niezbędnych informacji rozpoczęto tworzenie tezaurusa. Do stworzenia tezaurusa wybrano język programowania - HTML. Hyper Text Markup Language - „HTML” (Hypertext Markup Language), wielu już dawno przestało uważać go za język programowania. Ponieważ samo pojęcie HTML obejmuje różne metody projektowania dokumentów hipertekstowych, projektowanie, edytory hipertekstowe, przeglądarki i wiele innych. Użytkownik, który opanował ten język, nabywa umiejętność robienia poważnych rzeczy prostymi metodami i, co najważniejsze, szybko, co we współczesnym świecie uważa się za bardzo dobre!
Korzystając z języka HTML możesz tworzyć własne produkty multimedialne i rozpowszechniać je na dowolnych nośnikach, a wszystkie te produkty, wykonane w postaci zestawów stron HTML, nie wymagają rozwoju specjalistycznych narzędzi programowych, ponieważ wszystko, co jest niezbędne do pracy z dane (przeglądarki internetowe) stały się częścią standardowego oprogramowania większości komputerów osobistych.
Kod przyszłej strony WWW jest zwykle wpisywany w standardowym edytorze tekstu, ale są też inne programy i języki programowania, na przykład: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.
Na początek tezaurus będzie składał się z trzech ramek: ramki tytułowej, ramki łącza i ramki treści, jak pokazano na rysunku 1.3.
Rysunek 1.3 - Schemat tezaurusa
Do utworzenia szkicu tezaurusa użyto następujących znaczników i atrybutów HTML: