Tezauras. Žodžio pavyzdžio reikšmė rusų kalbos tezaure Žodžių ryšiai tezaure
Skaičiavimo technologijos
12 tomas, 2 specialusis numeris, 2007 m
DALYKO SRITIES TEAURO KŪRIMO TECHNOLOGIJA ENCIKLOPEDIJOS DALYKO RODYKLĖS PAGRINDAS
V. B. Barachninas
Skaičiavimo technologijų institutas SB RAS, Novosibirskas, Rusija
el. paštas: [apsaugotas el. paštas]
V. A. Nekhaeva Novosibirskas Valstijos universitetas, Rusija el. [apsaugotas el. paštas]
Šiame darbe aprašoma objektų srities tezauro kūrimo technologija, pagrįsta specializuotos enciklopedijos temų antrašte. Tokia technologija siūlo aukštos kokybės objekto srities aprašymą, naudojant patikimus terminus, taip leidžiant sukurti pirmąjį tezauro etapą, minimaliai įtraukiant šios konkrečios žinių srities ekspertus. Siūlomoje technologijoje taip pat yra tezauro kūrimo algoritmas ir žiniatinklio programa, įgyvendinanti šį algoritmą.
Įvadas
Vienas iš svarbiausių veiksnių, užtikrinančių sėkmingą integracijos tyrimų projektų įgyvendinimą, yra efektyvi mokslinė ir informacinė parama. Visų pirma, bendras kelių (ir ne visada susijusių) specialybių mokslininkų darbas reikalauja kruopštaus vartojamos terminijos derinimo, nes ta pati sąvoka skirtingose mokslo srityse gali būti žymima skirtingais terminais, o vienas terminas – skirtingomis sąvokomis.
Dar viena užduotis informacinė pagalba projektai - integruotos dokumentų (t. y. straipsnių, knygų ir kt.) bibliografinių aprašų, skirtų projekto temai, sukūrimas, sudarytas derinant bendradarbiaujančių tyrėjų išteklius, kurių kiekvienas jau turi sukaupęs kartotines bylas tam tikrame dokumente. tema per savo darbo metus (šiuo metu tokios bylų spintos, kaip taisyklė, saugomos elektroninėse laikmenose). Siekiant palengvinti paiešką kartotekoje, pageidautina, kad dokumentus apibūdinantys raktiniai žodžiai būtų parinkti, jei įmanoma, iš vieno žodyno. Automatiniam dokumentų, įtrauktų į kartoteką arba galimai į jį įrašytų iš elektroninių duomenų bazių, klasifikavimui
© Rusijos mokslų akademijos Sibiro filialo Skaičiavimo technologijų institutas, 2007 m.
mokslines publikacijas pvz., abstrakčių žurnalų duomenų bazė, „Dabartinis turinys“ ir kt., atrodo tikslinga naudoti koordinačių indeksavimo algoritmą. Šis algoritmas pagrįstas atsižvelgiant į tekste esančių terminų (žodžių ir frazių), apibūdinančių tam tikrą dalykinę sritį, klasifikavimo ypatybes.
Visų aukščiau išvardintų užduočių sprendimas neįmanomas nesukūrus terminų žodyno dalykinė sritis, o šiame žodyne turėtų būti nustatytos sąsajos tarp terminų ir atlikta terminų klasifikacija. Toks žodynas vadinamas tezauru (žr. išsamią informaciją). Tezauras (arba norminis tezauras) yra informacinis žodynas, kuriame yra visi informacijos paieškos kalbos leksiniai vienetai – deskriptoriai (kartu su raktiniais žodžiais, kurie tam tikroje informacijos paieškos sistemoje laikomi šių deskriptorių sinonimais), o žodyne esantys aprašai turi būti susisteminti pagal. į prasmę, o semantiniai ryšiai tarp jų yra aiškiai išreikšti.
Tačiau tezauro sudarymas „nuo nulio“ gali pareikalauti labai didelių ekspertų ekspertų pastangų, kurie turi surinkti visus terminus, visiškai apimančius dalykinę sritį, susitarti dėl jų reikšmių, nustatyti ryšius ir klasifikuoti. Panašūs sunkumai, kurie iškyla sprendžiant, nors ir svarbūs, bet vis tiek pagalbinė užduotis, gali neigiamai paveikti jo sprendimo perspektyvas.
Sukūrėme ir įdiegėme tezauro kūrimo technologiją pagal specializuotų enciklopedijų dalykinę rodyklę. Ši technologija suteikia aukštos kvalifikacijos dalykinės srities aprašymą naudojant patikimai patikrintus terminus, leidžiančius atlikti pradinį tezauro kūrimo etapą, minimaliai įtraukiant specialistus – šios srities ekspertus. Darbe pateikiamas išsamus algoritmo pristatymas ir pagrindimas. Žemiau yra Trumpas aprašymas algoritmą, taip pat jį įgyvendinančią žiniatinklio programą.
1. Tezauro kūrimo algoritmas
Siūloma naudoti specializuotos enciklopedijos (ar kelių enciklopedijų) dalykinę rodyklę kaip tezauro raktinių žodžių ir frazių sąrašą. Konkrečią enciklopediją pasirenka tos srities specialistas, o šis pasirinkimas priklauso nuo tikslų, kurių siekiama kuriant tezaurą. Taigi, sprendžiant sudėtingas aplinkos problemas, patartina naudoti enciklopedijas (arba, jei jų nėra, - enciklopediniai žodynai).
Daugumos enciklopedijų dalykinės rodyklės išdėstytos panašiai – jose pateikiami terminai, kurie yra enciklopedijų straipsnių pavadinimai, terminai, kurių apibrėžimai pateikiami straipsniuose, taip pat svarbiausi straipsniuose minimi rezultatai.
Kaip aprašai (t. y. terminai, kurie yra artimų sąvokų klasių pavadinimai), laikomi enciklopedijos straipsnių pavadinimai ir žodžiai iš dalykinės rodyklės, esantys atitinkamoje
straipsniai. Pagrindinis šio metodo privalumas yra tai, kad nereikia būti šios srities ekspertu, norint nustatyti sąryšių tipus tarp terminų – pakanka bendrųjų žinių, kad suprastum enciklopedijos tekstą – konkretesnė informacija, reikalinga klasifikuojant sąvokas visada galima išsemti iš konkretaus straipsnio.
Kadangi kuriamas tezauras skirtas veikti naudojant Z39.50 protokolą, nuorodų tipai nustatomi pagal /l melų schemos rekomendacijas, kuriose išskiriami šie tipai:
VT – ryšys su pirminiu terminu, t.y. su terminu platesne prasme;
NT – ryšys su vaikišku terminu, t.y. su siauresnės reikšmės terminu. Ryšys VT - NT yra abipusiai atvirkštinis;
USE yra nuoroda į vietoj jos vartojamą terminą;
UF - abipusis grįžtamasis ryšys USE;
RT – nuoroda, apibrėžianti susijusį terminą;
LE – ryšys tarp kalbiniu požiūriu lygiaverčių terminų;
FE – visiškai identiški terminai.
Be to, deskriptorių klasifikavimas atliekamas pagal šios dalykinės srities skyrius. Tam tikro klasifikatoriaus, taip pat enciklopedijos pasirinkimą atlieka ekspertas, o naudojant kelias skirtingų dalykinių sričių enciklopedijas, galima naudoti kelis specializuotus klasifikatorius. Formos NT, RT, LE (FE) sąsajos nustatomos tarp deskriptorių ir klasifikatoriaus sekcijų, o klasifikatoriuje, jei įmanoma, turėtų būti naudojami žemiausio įmanomo lygio skyriai.
Po to raktiniams žodžiams, susietiems su deskriptoriumi ryšiais BT, USE, RT, LE ir FE, priskiriamas toks pat klasifikavimo numeris kaip ir deskriptoriui. Tačiau tai neatmeta situacijos, kad jei deskriptorius priskiriamas ne žemiausio lygio klasei, vėliau eksperto patarėjo darbo metu terminai, susiję su deskriptoriumi ryšiais BT ir USE, gali būti priskirti žemesnio lygio klasė. Šiuo atveju šie terminai patys tampa aprašais.
Dėl to visi į dalykų rodyklę įtraukti terminai klasifikuojami pagal šios dalykinės srities skyrius.
2. Žiniatinklio programos aprašymas
Nepaisant to, tezauro kūrimo pagal šią techniką procesas apima daug įprastų darbų ir, be to, reikalauja programavimo įgūdžių turinčio asmens dalyvavimo. Todėl, be metodikos, buvo sukurta žiniatinklio programa, kuri turi patogią sąsają ir palaiko šias funkcijas:
1) automatinis informacijos iš suskaitmenintų dalykinės rodyklės puslapių vertimas į duomenų bazės lentelę;
2) deskriptorių parinkimas bendrame terminų sąraše;
3) ieškoti terminų, susijusių su nurodytu deskriptoriumi, ir nustatyti nuorodų tipus pagal Zthes schemą.
Svarbu pažymėti, kad norint atlikti visas aukščiau paminėtas operacijas, nereikia jokių programuotojo įgūdžių.
Sukurta programa yra universali, t.y. gali būti naudojamas kuriant tezaurus įvairioms dalykinėms sritims. Šiuo metu programos perkonfigūravimą iš vienos enciklopedijos dalykinės rodyklės į kitos temų rodyklę (ir tik šiame etape skirtingų dalykinių sričių tezaurų konstravimo procesai gali skirtis) atlieka programuotojas, tačiau dirbama. vyksta programos papildymas funkcijomis, leidžiančiomis vartotojui atlikti šią operaciją. be programavimo įgūdžių.
Programa veikia taip. Suskaitmenintų rodyklės puslapių apdorojimas atliekamas automatiškai. Vartotojas nurodo tekstinio failo vietą su duomenimis, po to eilė po eilutės jis skaitomas ir į duomenų bazę įvedami patys terminai bei informacija apie enciklopedijos puslapių numerius, kur jie yra (1 pav.).
Deskriptorius iš bendro raktažodžių sąrašo vartotojas pasirenka pats, ekrane rodomame sąraše pažymėdamas paieškos terminus. \¥ob-application taip pat palaiko galimų klaidų taisymo funkciją (2 pav.). Prisiminkite, kad visi terminai, rasti tam skirtame enciklopedijos straipsnyje, laikomi susijusiais su šiuo aprašu.
Kad būtų lengviau ieškoti susijusių terminų vartotojui pateikiamas tik raktinių žodžių sąrašas, esantis tame pačiame puslapyje kaip ir jo pasirinktas deskriptorius (iš tikrųjų tam į duomenų bazę įvedėme tik terminus ir informaciją apie puslapio ribas). Žinoma, kadangi straipsnis gali užimti ne visą puslapį, į sąrašą bus įtrauktos papildomos sąlygos. Vartotojas, užmezgantis ryšius,
Ryžiai. 1. Tekstinių failų su terminais įvedimas iš dalykinės rodyklės
Ne. Deskriptorių žodyno kūrimas – Microsoft Internet Explorer!
Failas Redaguoti Žiūrėti Parankiniai įrankiai Žinynas
Q Atgal " © " @ |í| & yP Ieškoti ^Mėgstamiausi - . V
Adresas; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Vyksta nuorodos y>
fiBár JOQQ- © - I * 1 ]0 l de:*- F
1 Abacus | 1, 13 1111111
2 Abelevo mašina | 1,67 1111111
3 Abelio grupės objektas | 1, 1149 111 1 | |
4 Abelevo diferencialas 11.13-15 I 2, 240 111111
5 Abelio diferencialas, pagrindas | 1, 13 1111111
6 Abelio diferencialas, daliklis | 1, 15 | | | | | 1 |
7 Abelio diferencialas normalus | 1, 14 1111111
8 Abelio normalizuotas diferencialas | 1, 14 1111111
9 Abelio diferencialas, poliarinis periodas | 1, 14 | | | | | | |
10 Abelio diferencialas, ciklinis periodas | 1, 14 1111111
11 Abelio idempotentas 14, 941 1111111
12 Abelio integralas 11.15-17 1111111
13 Abelio integralas, Abelio teorema | 1, 17 1111111
14 Abelio integralas kanoninis |1,16||||||
16 Abelio integralas, taško matrica |1,16||||||
15 Abelio normalusis integralas | 1, 16|||||||
17 Abelio integralas, poliarinis periodas | 1,16||||||| 1S Abelio integralas, ciklinis periodas | 1, 16 | | | | |
19 Abelio potencialas | 2, 239 1111111
20 Abelevas a grupė 11.17-20 1111111
21 Abelio grupė yra visiškai skaidoma |1,19||||||
22 Dalijama Abelio grupė | 1, 19|||||||
23 Galutinai sugeneruota Abelio grupė | 1.18 1111111
24 Abelių grupė, Kulikovo kriterijus | 1, 18 | | | | | |
25 Abelių grupė, nulis | 3,1082 1111111
26 Abelio grupė, periodinė dalis | 1, 18 111 | |
http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+A+1+3
j 5tartApache.bat
Svoj.NET: PHP redagavimas
J Adobe Photoshop|| w
^ Vietinis intranetas
EN W/m K 21:0;
Ryžiai. 2. Raktažodžių sąrašas ir deskriptorių pasirinkimas
Ryžiai. 3. Susijusių terminų pasirinkimas
Ryžiai. 4. Ryšių tipų nustatymas.
iš siūlomo sąrašo pasirenka tik dalį raktažodžių, tačiau toks automatizavimas žymiai sumažina įprastų darbų apimtį (3 pav.).
Deskriptoriaus ir raktažodžio ryšio tipas nurodomas užpildant atitinkamą formą (4 pav.).
Išvada
Šio algoritmo ir žiniatinklio programos veikimas buvo patikrintas sukuriant tezaurą daugeliui dalykinės srities „Matematika“ (“ Diferencialinės lygtys“, „Dalinės diferencialinės lygtys“, „Skaičių analizė“, „Skysčių mechanika“ ir kt.), remiantis „Matematinės enciklopedijos“ dalykine rodykle. retais atvejais mokslinį laipsnį turinčio eksperto konsultacijoms). didelis sukurto algoritmo efektyvumas.
Bibliografija
Michailov A.I., Cherny A.I., Gilyarevsky R.C. Informatikos pagrindai. Maskva: Nauka, 1968 m.
Barachninas V.B. Dalyko srities „Matematika“ tezauro kūrimas // Mater, Conf. „Skaičiavimas ir Informacinės technologijos mokslo, technologijų ir švietimo srityje". 1 dalis. Novosibirskas; Almata; Ust-Kamenogorskas, 2003. P. 111-115.
Zthes: Z39.50 profilis, skirtas naršyti tezauruose
http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html
Pirmasis žingsnis kuriant tezaurą buvo ieškoti informacijos apie tezaurų struktūrą, jo tipus ir veikiančias programas. Antrasis etapas buvo programavimo kalbos ir būsimo tezauro kūrimo schemos pasirinkimas. Trečias etapas yra informacijos paieška, kad ją užpildytumėte, tam aš naudoju " Mokymo ir metodologijos kompleksas Kompiuterių tinklai“.
Štai keli tezaurų pavyzdžiai (žr. 1.1 ir 1.2 pav.):
1.1 pav. Informacijos paieškos sistema „Thesaurus.com“
1.2 pav. Lyčių terminų žodynas
Surinkus reikiamą informaciją, pradėtas kurti tezauras. Tezaurui sukurti buvo pasirinkta programavimo kalba – HTML. Hiperteksto žymėjimo kalba – „HTML“ (Hypertext Markup Language), daugelis jau seniai nustojo ją laikyti tik programavimo kalba. Kadangi pati HTML sąvoka apima įvairių metodų hiperteksto dokumentų kūrimas, dizainas, hiperteksto redaktoriai, naršyklės ir daug daugiau. Vartotojas, įvaldęs šią kalbą, įgyja gebėjimą daryti rimtus dalykus paprasti metodai ir, svarbiausia, greitai modernus pasaulis laikoma labai gerai!
Naudodami HTML kalbą galite kurti savo daugialypės terpės produktus ir platinti juos bet kurioje laikmenoje, o visiems šiems produktams, pagamintiems HTML puslapių rinkinių pavidalu, nereikia kurti specializuotų programinės įrangos įrankių, nes viskas, ko reikia darbui su duomenys (žiniatinklio naršyklės) tapo daugumos asmeninių kompiuterių standartinės programinės įrangos dalimi.
Būsimo tinklalapio kodas dažniausiai įvedamas įprastu teksto redaktoriumi, tačiau yra ir kitų programų bei programavimo kalbų, pavyzdžiui: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.
Iš pradžių tezaurą sudarys trys rėmeliai: pavadinimo rėmelis, nuorodos rėmelis ir turinio rėmelis, kaip parodyta 1.3 pav.
1.3 pav. Tezauro schema
Kuriant tezauro eskizą buvo naudojamos šios HTML žymos ir atributai: