tezaurové. Význam slova ukázka v tezauru ruského jazyka Vztahy slov v tezauru
Výpočetní technologie
Ročník 12, Zvláštní vydání 2, 2007
TECHNOLOGIE VYTVOŘENÍ TESAURA OBLASTI PŘEDMĚTU NA ZÁKLADĚ PŘEDMĚTOVÉHO INDEXU ENCYKLOPEDIE
V. B. Barakhnin
Institute of Computational Technologies SB RAS, Novosibirsk, Rusko
e-mailem: [e-mail chráněný]
Státní univerzita V. A. Nekhaeva Novosibirsk, Rusko e-mail: [e-mail chráněný]
Tato práce popisuje technologii tvorby tezauru objektové domény, který je založen na předmětovém heslu pro specializované encyklopedie. Taková technologie nabízí vysoce kvalitní popis objektové domény pomocí spolehlivých termínů, což umožňuje vybudovat první stupeň tezauru s minimálním zapojením odborníků v této konkrétní oblasti znalostí. Navrhovaná technologie také obsahuje algoritmus pro tvorbu tezauru a webovou aplikaci implementující tento algoritmus.
Úvod
Jedním z nejdůležitějších faktorů zajišťujících úspěšnou realizaci projektů integračního výzkumu je efektivní vědecká a informační podpora. Zejména společná práce výzkumníků v několika (a ne vždy souvisejících) specializacích vyžaduje pečlivou koordinaci používané terminologie, protože stejný pojem lze v různých oblastech vědy označovat různými pojmy a jeden pojem - různé pojmy.
Dalším úkolem informační podpory projektu je vytvoření integrované kartotéky bibliografických popisů dokumentů (tj. článků, knih apod.) k předmětu projektu, sestaveného spojením zdrojů spolupracujících badatelů, z nichž každý již nashromáždil kartotéka na to či ono téma (v současnosti jsou takové kartotéky uloženy zpravidla na elektronických médiích). Pro usnadnění vyhledávání v kartotéce je žádoucí, aby klíčová slova charakterizující dokumenty byla vybírána pokud možno z jednoho slovníku. Pro automatickou klasifikaci dokumentů obsažených v kartotéce nebo potenciálně do ní vložitelných z elektronických databází
© Ústav výpočetních technologií, Sibiřská pobočka Ruské akademie věd, 2007.
vědeckých publikací, jako je databáze abstraktních časopisů, "Current Contents" atd., se jeví jako vhodné použít souřadnicový indexovací algoritmus. Tento algoritmus je založen na zohlednění klasifikačních rysů pojmů (slov a frází) obsažených v textu, které charakterizují konkrétní předmětovou oblast.
Řešení všech výše uvedených úkolů není možné bez vytvoření slovníku pojmů dané oblasti a v tomto slovníku by měly být vytvořeny vazby mezi pojmy a měla by být provedena klasifikace pojmů. Takový slovník se nazývá tezaurus (viz podrobnosti v). Thesaurus (neboli normativní tezaurus) je referenční slovník obsahující všechny lexikální jednotky jazyka pro vyhledávání informací - deskriptory (spolu s klíčovými slovy, která jsou v rámci daného systému vyhledávání informací považována za synonyma těchto deskriptorů), přičemž deskriptory ve slovníku musí být systematizovány podle k významu a sémantické souvislosti mezi nimi jsou výslovně vyjádřeny.
Sestavení tezauru „od nuly“ však může vyžadovat velmi značné úsilí expertů, kteří musí shromáždit všechny pojmy, které plně pokrývají předmětnou oblast, dohodnout se na jejich významu, navázat vztahy a klasifikovat. Takové potíže, které vznikají při řešení důležitého, ale stále pomocného úkolu, mohou negativně ovlivnit vyhlídky na jeho řešení.
Vyvinuli jsme a implementovali technologii pro tvorbu tezauru na základě předmětového rejstříku odborných encyklopedií. Tato technologie poskytuje vysoce kvalifikovaný popis předmětné oblasti pomocí spolehlivě ověřených pojmů, což umožňuje provést počáteční fázi budování tezauru s minimálním zapojením specialistů - odborníků v této oblasti. V práci je uvedena podrobná prezentace a zdůvodnění algoritmu. Níže je uveden stručný popis algoritmu a také webové aplikace, která jej implementuje.
1. Algoritmus pro vytvoření tezauru
Jako seznam klíčových slov a frází pro tezaurus se navrhuje použít předmětový rejstřík specializované encyklopedie (nebo několika encyklopedií). Výběr konkrétní encyklopedie provádí specialista na danou oblast a tento výběr závisí na cílech sledovaných při tvorbě tezauru. Pro řešení složitých environmentálních problémů je tedy vhodné používat encyklopedie (nebo v případě jejich absence encyklopedické slovníky) z fyziky, chemie, geologie, biologie, lékařství, matematiky atd. Při správné volbě je předmětový rejstřík docela vhodný, když ne jako kompletní , tak alespoň jako základní seznam klíčových slov, který bude v případě potřeby doplněn.
Obdobně jsou uspořádány předmětové rejstříky většiny encyklopedií – obsahují pojmy, které jsou názvy článků encyklopedie, pojmy, jejichž definice jsou v článcích uvedeny, a také nejdůležitější výsledky uvedené v článcích.
Jako deskriptory (tj. termíny, které jsou názvy tříd významově blízkých pojmů) se předpokládají názvy článků encyklopedie a slova z předmětového rejstříku, která se vyskytují v odpovídajícím
články. Hlavní výhodou této metody je, že pro stanovení typů vztahů mezi pojmy nemusíte být odborníkem v této oblasti - k porozumění textu encyklopedie stačí obecné znalosti - konkrétnější informace potřebné v procesu klasifikace koncepty lze vždy získat z konkrétního článku.
Vzhledem k tomu, že vytvářený tezaurus je navržen pro práci s protokolem Z39.50, jsou typy odkazů nastaveny v souladu s doporučeními schématu /l lies, které rozlišuje následující typy:
VT - spojení s nadřazeným pojmem, tedy s pojmem širšího významu;
NT - spojení s podřízeným pojmem, tedy s pojmem užšího smyslu. Komunikace VT - NT je vzájemně inverzní;
USE je odkaz na termín, který se používá místo toho;
UF - vzájemná zpětná vazba USE;
RT - odkaz, který definuje související termín;
LE - vztah mezi jazykově ekvivalentními termíny;
FE - naprosto shodné pojmy.
Dále se provádí klasifikace deskriptorů v souladu se sekcemi této oblasti. Výběr konkrétního klasifikátoru, stejně jako výběr encyklopedie, provádí odborník a v případě použití více encyklopedií z různých tematických oblastí je možné použít více specializovaných klasifikátorů. Mezi deskriptory a sekcemi klasifikátoru jsou vytvořeny vazby ve tvaru NT, RT, LE (FE), přičemž klasifikace by měla používat pokud možno sekce nejnižší možné úrovně.
Poté je klíčovým slovům spojeným s deskriptorem pomocí vztahů BT, USE, RT, LE a FE přiřazeno stejné klasifikační číslo jako deskriptoru. To však nevylučuje situaci, že pokud je deskriptor přiřazen do třídy, která není na nejnižší úrovni, pak během následné práce odborného poradce mohou být termíny spojené s deskriptorem vztahy BT a USE přiřazeny třídy nižšího stupně. V tomto případě se tyto termíny samy stávají deskriptory.
V důsledku toho jsou všechny pojmy zahrnuté v předmětovém rejstříku klasifikovány podle sekcí této předmětové oblasti.
2. Popis webové aplikace
Přesto proces konstrukce tezauru v souladu s touto technikou zahrnuje velké množství rutinní práce a navíc vyžaduje účast člověka s programátorskými dovednostmi. Proto byla kromě metodiky vyvinuta webová aplikace, která má uživatelsky přívětivé rozhraní a podporuje následující funkce:
1) automatický překlad informací z digitalizovaných stránek předmětového rejstříku do databázové tabulky;
2) výběr deskriptorů v obecném seznamu termínů;
3) vyhledávání termínů spojených s daným deskriptorem a nastavení typů odkazů v souladu se schématem Zthes.
Je důležité poznamenat, že k provedení všech výše uvedených operací nejsou vyžadovány žádné programátorské dovednosti.
Vyvíjená aplikace je univerzální, tzn. lze použít k vytvoření tezaurů pro různé tematické oblasti. V tuto chvíli provádí rekonfiguraci programu z předmětového rejstříku jedné encyklopedie do předmětového rejstříku jiné (a teprve v této fázi se mohou procesy konstrukce tezaurů různých tematických oblastí lišit) programátor, nicméně práce je probíhá doplnění programu o funkce, které uživateli umožňují tuto operaci provádět. bez znalosti programování.
Aplikace funguje následovně. Zpracování digitalizovaných rejstříkových stránek probíhá automaticky. Uživatel zadá umístění textového souboru s daty, načež se čte řádek po řádku a do databáze se zapisují samotné pojmy a také informace o číslech stránek encyklopedie, kde se nacházejí (obr. 1).
Deskriptory z obecného seznamu klíčových slov vybírá uživatel sám, přičemž hledané výrazy označuje v seznamu zobrazeném na obrazovce. \¥ob-application také podporuje funkci opravy případných chyb (obr. 2). Připomeňme, že všechny výrazy nalezené v článku encyklopedie, který je mu věnován, jsou považovány za spojené s tímto deskriptorem.
Pro usnadnění vyhledávání souvisejících výrazů se uživateli zobrazuje pouze seznam klíčových slov umístěných na stejné stránce jako jím zvolený deskriptor (ve skutečnosti jsme do databáze zadali pouze výrazy a informace o hranicích stránky). Vzhledem k tomu, že článek nemusí zabírat celou stránku, budou do seznamu samozřejmě zahrnuty další výrazy. Uživatel, navazování spojení,
Rýže. 1. Zadávání textových souborů s pojmy z předmětového rejstříku
Ne. Vytvoření slovníku deskriptorů – Microsoft Internet Explorer!
Soubor Upravit Zobrazit Oblíbené Nástroje Nápověda
Q Zpět " © " @ |í| & yP Hledat ^Oblíbené - . PROTI
Adresa; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Going Links y>
fiBár JOQQ- © - I * 1 ]0 l de:*- F
1 Počítadlo | 1, 13 1111111
2 Abelevův stroj | 1,67 1111111
3 Objekt Abelovské skupiny | 1, 1149 111 1 | |
4 Abelev diferenciál 11,13-15 I 2, 240 111111
5 Abelův diferenciál, základ | 1, 13 1111111
6 Abelův diferenciál, dělitel | 1, 15 | | | | | 1 |
7 Abelův normální diferenciál | 1, 14 1111111
8 Abelův normalizovaný diferenciál | 1, 14 1111111
9 Abelův diferenciál, polární období | 1, 14 | | | | | | |
10 Abelův diferenciál, cyklická perioda | 1, 14 1111111
11 Abelian idempotent 14, 941 1111111
12 Abelovský integrál 11,15-17 1111111
13 Abelův integrál, Abelova věta | 1, 17 1111111
14 Abelovský integrál kanonický |1,16||||||
16 Abelovský integrál, matice period |1,16||||||
15 Abelovský normální integrál | 1, 16|||||||
17 Abelovský integrál, polární období | 1.16||||||| 1S Abelovský integrál, cyklická perioda | 1, 16 | | | | |
19 Abelův potenciál | 2, 239 1111111
20 Abelev a skupina 11.17-20 1111111
21 Abelovská skupina je zcela rozložitelná |1,19||||||
22 Dělitelná abelovská skupina | 1, 19|||||||
23 Definitivně vygenerovaná abelovská skupina | 1,18 1111111
24 Abelovská skupina, Kulikovovo kritérium | 1, 18 | | | | | |
25 Abelovská skupina, nula | 3,1082 1111111
26 Abelovská skupina, periodická část | 1, 18 111 | |
http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+A+1+3
j 5tartApache.bat
I Svoj.NET: PHP Edit
J Adobe Photoshop || w
^ Místní intranet
EN W/m K 21:0;
Rýže. 2. Seznam klíčových slov a výběr deskriptorů
Rýže. 3. Volba souvisejících pojmů
Rýže. 4. Stanovení typů vazeb.
vybere pouze část klíčových slov z navrženého seznamu, nicméně taková automatizace výrazně snižuje množství rutinní práce (obr. 3).
Typ spojení mezi deskriptorem a klíčovým slovem se upřesňuje vyplněním příslušného formuláře (obr. 4).
Závěr
Výkonnost tohoto algoritmu a webové aplikace byla testována vytvořením tezauru řady sekcí z oblasti "Matematika" ("Diferenciální rovnice", "Parciální diferenciální rovnice", "Numerická analýza", "Mechanika tekutin" atd. .) na základě oborového rejstříku „Matematická encyklopedie“. Bylo stanoveno, že pro klasifikaci pojmů a navázání vztahů mezi nimi postačuje bakalářská kvalifikace (za předpokladu, že v ojedinělých případech je ke konzultacím zapojen odborník s vědeckou hodností). To dokazuje vysokou účinnost vyvinutého algoritmu.
Bibliografie
Mikhailov A.I., Cherny A.I., Gilyarevsky R.C. Základy informatiky. Moskva: Nauka, 1968.
Barakhnin V.B. Vývoj tezauru oboru "Matematika" // Mater, Conf. „Výpočetní a informační technologie ve vědě, technice a vzdělávání“. Část 1. Novosibirsk; Almaty; Usť-Kamenogorsk, 2003, s. 111-115.
Zthes: profil Z39.50 pro navigaci v tezauru
http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html
Prvním krokem při vytváření tezauru bylo hledání informací o struktuře tezaurů, jejich typech a operačních programech. Druhou fází byla volba programovacího jazyka a schématu pro sestavení mého budoucího tezauru. Třetí etapou je vyhledávání informací k jejich vyplnění, k tomu jsem použil „Vzdělávací a metodický komplex Počítačové sítě“.
Zde je několik příkladů tezaurů (viz obrázek 1.1 a obrázek 1.2):
Obrázek 1.1 - Systém vyhledávání informací "Thesaurus.com"
Obrázek 1.2 - Slovník genderových pojmů
Po shromáždění potřebných informací se začalo s tvorbou tezauru. Pro vytvoření tezauru byl zvolen programovací jazyk - HTML. Hyper Text Markup Language - "HTML" (Hypertext Markup Language), mnozí jej již dávno přestali považovat pouze za programovací jazyk. Protože samotný koncept HTML zahrnuje různé metody navrhování hypertextových dokumentů, design, hypertextové editory, prohlížeče a mnoho dalšího. Uživatel, který si osvojil tento jazyk, získává schopnost dělat vážné věci jednoduchými metodami a hlavně rychle, což je v moderním světě považováno za velmi dobré!
Pomocí jazyka HTML můžete vytvářet své vlastní multimediální produkty a distribuovat je na libovolném médiu a všechny tyto produkty, vyrobené ve formě sad HTML stránek, nevyžadují vývoj specializovaných softwarových nástrojů, protože vše potřebné pro práci s data (webové prohlížeče) se staly součástí standardního softwaru většiny osobních počítačů.
Kód budoucí webové stránky se obvykle píše ve standardním textovém editoru, existují však i další programy a programovací jazyky, např.: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.
Pro začátek bude tezaurus sestávat ze tří rámců: rámeček nadpisu, rámeček odkazu a rámeček obsahu, jak je znázorněno na obrázku 1.3.
Obrázek 1.3 - Schéma tezauru
K vytvoření náčrtu tezauru byly použity následující HTML tagy a atributy: