Thesauri. Bedeutung der Wortprobe im Thesaurus der russischen Sprache Beziehungen der Wörter im Thesaurus
Computertechnologien
Band 12, Sonderausgabe 2, 2007
TECHNOLOGIE DER ERSTELLUNG EINES THESAURUS DES THEMABEREICHS AUF DER GRUNDLAGE DES THEMAINDEX DER ENZYKLOPÄDIE
V. B. Barakhnin
Institut für Computational Technologies SB RAS, Nowosibirsk, Russland
Email: [E-Mail geschützt]
V. A. Nekhaeva State University Novosibirsk, Russland E-Mail: [E-Mail geschützt]
Diese Arbeit beschreibt eine Technologie zur Erstellung von Objektdomänen-Thesaurus, die auf Schlagwörtern für spezialisierte Enzyklopädien basiert. Eine solche Technologie bietet eine qualitativ hochwertige Beschreibung des Objektbereichs unter Verwendung zuverlässiger Begriffe und ermöglicht so den Aufbau einer ersten Stufe des Thesaurus mit einem minimalen Engagement von Experten in diesem speziellen Wissensgebiet. Die vorgeschlagene Technologie enthält auch einen Thesaurus-Erstellungsalgorithmus und eine webbasierte Anwendung, die diesen Algorithmus implementiert.
Einführung
Einer der wichtigsten Faktoren für die erfolgreiche Durchführung von Integrationsforschungsprojekten ist eine effektive wissenschaftliche und informationelle Begleitung. Insbesondere die gemeinsame Arbeit von Forschern mehrerer (und nicht immer verwandter) Fachrichtungen erfordert eine sorgfältige Abstimmung der verwendeten Terminologie, da derselbe Begriff in verschiedenen Wissenschaftsbereichen mit unterschiedlichen Begriffen und einem Begriff mit unterschiedlichen Begriffen bezeichnet werden kann.
Eine weitere Aufgabe der Informationsunterstützung für Projekte ist die Erstellung einer integrierten Kartei mit bibliografischen Beschreibungen von Dokumenten (d. h. Artikeln, Büchern usw.) zum Thema des Projekts, die durch die Kombination der Ressourcen von kooperierenden Forschern erstellt wird, die jeweils bereits vorhanden sind eine Kartei zu dem einen oder anderen Thema angesammelt (derzeit werden solche Aktenschränke in der Regel auf elektronischen Medien gespeichert). Um die Suche in der Kartei zu erleichtern, ist es wünschenswert, dass die die Dokumente charakterisierenden Schlüsselwörter möglichst aus einem einzigen Wörterbuch ausgewählt werden. Zur automatischen Klassifizierung von Dokumenten, die in der Kartei enthalten sind oder aus elektronischen Datenbanken dort erfasst werden können
© Institute of Computational Technologies, Sibirischer Zweig der Russischen Akademie der Wissenschaften, 2007.
B. einer Datenbank von Abstract-Zeitschriften, „Current Contents“ etc., erscheint es sinnvoll, den Koordinatenindexalgorithmus zu verwenden. Dieser Algorithmus basiert auf der Berücksichtigung der Klassifikationsmerkmale der im Text enthaltenen Begriffe (Wörter und Wendungen), die ein bestimmtes Sachgebiet charakterisieren.
Die Lösung aller oben aufgeführten Aufgaben ist ohne die Erstellung eines Wörterbuchs der Fachbegriffe des Fachgebiets nicht möglich, und in diesem Wörterbuch sollen Verknüpfungen zwischen Begriffen hergestellt und eine Begriffsklassifikation vorgenommen werden. Ein solches Wörterbuch wird Thesaurus genannt (siehe Einzelheiten in). Thesaurus (oder normativer Thesaurus) ist ein Referenzwörterbuch, das alle lexikalischen Einheiten einer Information-Retrieval-Sprache enthält – Deskriptoren (zusammen mit Schlüsselwörtern, die innerhalb eines gegebenen Information-Retrieval-Systems als Synonyme dieser Deskriptoren gelten), und die Deskriptoren im Wörterbuch müssen entsprechend systematisiert werden zur Bedeutung, und die semantischen Verbindungen zwischen ihnen werden explizit zum Ausdruck gebracht.
Einen Thesaurus „von Grund auf“ zu erstellen, kann jedoch einen erheblichen Arbeitsaufwand für Experten bedeuten, die alle Begriffe, die das Fachgebiet abdecken, möglichst vollständig sammeln, sich auf ihre Bedeutung einigen, Zusammenhänge herstellen und klassifizieren müssen. Solche Schwierigkeiten, die bei der Lösung einer wichtigen, aber immer noch Hilfsaufgabe auftreten, können die Aussichten für ihre Lösung negativ beeinflussen.
Wir haben eine Technologie zur Erstellung eines Thesaurus auf der Grundlage des Sachverzeichnisses von Fachlexika entwickelt und implementiert. Diese Technologie bietet eine hochqualifizierte Beschreibung des Fachgebiets mit zuverlässig verifizierten Begriffen, sodass Sie die Anfangsphase des Aufbaus eines Thesaurus mit minimaler Beteiligung von Spezialisten – Experten auf diesem Fachgebiet – durchführen können. Eine ausführliche Darstellung und Begründung des Algorithmus erfolgt in der Arbeit. Nachfolgend finden Sie eine kurze Beschreibung des Algorithmus sowie der Webanwendung, die ihn implementiert.
1. Algorithmus zum Erstellen eines Thesaurus
Es wird vorgeschlagen, den Sachindex eines Fachlexikons (oder mehrerer Enzyklopädien) als Liste von Schlüsselwörtern und Phrasen für den Thesaurus zu verwenden. Die Wahl einer bestimmten Enzyklopädie wird von einem Spezialisten auf dem Fachgebiet getroffen, und diese Wahl hängt von den Zielen ab, die bei der Erstellung des Thesaurus verfolgt werden. Um komplexe Umweltprobleme zu lösen, ist es daher ratsam, Enzyklopädien (oder, falls nicht vorhanden, Lexika) zu Physik, Chemie, Geologie, Biologie, Medizin, Mathematik usw. zu verwenden. Bei richtiger Wahl ist das Sachregister gut geeignet, wenn nicht als vollständige , dann zumindest als grundlegende Stichwortliste, die bei Bedarf ergänzt wird.
Die Sachverzeichnisse der meisten Enzyklopädien sind ähnlich aufgebaut - sie enthalten Begriffe, die die Namen von Lexikonartikeln sind, Begriffe, deren Definitionen in den Artikeln angegeben sind, sowie die wichtigsten Ergebnisse, die in den Artikeln erwähnt werden.
Als Deskriptoren (d. h. Begriffe, die die Namen von bedeutungsnahen Klassen von Begriffen sind) werden die Namen von Enzyklopädieartikeln angenommen und die Wörter aus dem Schlagwortverzeichnis, die in dem entsprechenden vorkommen
Artikel. Der große Vorteil dieser Methode besteht darin, dass Sie kein Experte auf diesem Gebiet sein müssen, um die Art der Beziehungen zwischen Begriffen festzustellen - allgemeine Kenntnisse reichen aus, um den Text der Enzyklopädie zu verstehen - spezifischere Informationen werden für den Prozess der Klassifizierung benötigt Konzepte können immer einem bestimmten Artikel entnommen werden.
Da der zu erstellende Thesaurus darauf ausgelegt ist, mit dem Z39.50-Protokoll zu arbeiten, werden die Linktypen gemäß den Empfehlungen des /l lies-Schemas festgelegt, das die folgenden Typen unterscheidet:
VT - Verbindung mit dem übergeordneten Begriff, d. h. mit dem Begriff im weiteren Sinne;
NT - Verbindung mit einem untergeordneten Begriff, d.h. mit einem Begriff im engeren Sinne. Die Kommunikation VT - NT ist gegenseitig invers;
USE ist ein Link zu dem Begriff, der stattdessen verwendet wird;
UF - gegenseitiges Feedback USE;
RT – ein Link, der einen verwandten Begriff definiert;
LE - Beziehung zwischen sprachlich äquivalenten Begriffen;
FE - völlig identische Begriffe.
Außerdem erfolgt die Klassifizierung der Deskriptoren gemäß den Abschnitten dieses Fachgebiets. Die Auswahl eines bestimmten Klassifikators wird ebenso wie die Auswahl eines Lexikons von einem Experten durchgeführt, und im Falle der Verwendung mehrerer Lexika aus verschiedenen Fachgebieten können mehrere spezialisierte Klassifikatoren verwendet werden. Zwischen Deskriptoren und Abschnitten des Klassifikators werden Verknüpfungen der Form NT, RT, LE (FE) hergestellt, wobei die Klassifikation nach Möglichkeit Abschnitte der niedrigsten möglichen Ebene verwenden sollte.
Danach wird den Schlüsselwörtern, die dem Deskriptor durch die Beziehungen BT, USE, RT, LE und FE zugeordnet sind, dieselbe Klassifizierungsnummer wie dem Deskriptor zugewiesen. Dies schließt jedoch nicht die Situation aus, dass, wenn der Deskriptor einer Klasse nicht der niedrigsten Ebene zugeordnet wird, während der nachfolgenden Arbeit des Expert Advisors die mit dem Deskriptor durch die Relationen BT und USE verknüpften Begriffe a zugeordnet werden können Klasse einer niedrigeren Stufe. In diesem Fall werden diese Begriffe selbst zu Deskriptoren.
Dadurch werden alle im Sachregister enthaltenen Begriffe nach den Abschnitten dieses Sachgebiets geordnet.
2. Beschreibung der Webanwendung
Nichtsdestotrotz beinhaltet der Vorgang des Erstellens eines Thesaurus gemäß dieser Technik einen großen Umfang an Routinearbeit und erfordert zusätzlich die Teilnahme einer Person mit Programmierkenntnissen. Daher wurde neben der Methodik eine Webanwendung entwickelt, die über eine benutzerfreundliche Oberfläche verfügt und folgende Funktionen unterstützt:
1) automatische Übersetzung von Informationen von digitalisierten Seiten des Sachregisters in eine Datenbanktabelle;
2) Auswahl von Deskriptoren in der allgemeinen Begriffsliste;
3) Suche nach Begriffen, die einem gegebenen Deskriptor zugeordnet sind, und Einstellen der Verknüpfungstypen gemäß dem Zthes-Schema.
Es ist wichtig zu beachten, dass keine Programmierkenntnisse erforderlich sind, um alle oben genannten Operationen durchzuführen.
Die entwickelte Anwendung ist universell, d.h. können verwendet werden, um Thesauri für verschiedene Themenbereiche zu erstellen. Im Moment wird die Neukonfiguration des Programms vom Sachverzeichnis einer Enzyklopädie zum Sachverzeichnis einer anderen (und nur in diesem Stadium können sich die Prozesse zum Erstellen von Thesauri verschiedener Sachgebiete unterscheiden) vom Programmierer durchgeführt, ist jedoch Arbeit im Gange, das Programm um Funktionen zu ergänzen, die es dem Benutzer ermöglichen, diese Operation durchzuführen. ohne Programmierkenntnisse.
Die Anwendung funktioniert wie folgt. Die Verarbeitung digitalisierter Indexseiten erfolgt automatisch. Der Benutzer gibt den Ort der Textdatei mit Daten an, wonach sie Zeile für Zeile gelesen wird und die Begriffe selbst in die Datenbank eingegeben werden, sowie Informationen über die Seitenzahlen des Lexikons, wo sie sich befinden (Abb. 1).
Deskriptoren aus der allgemeinen Schlüsselwortliste werden vom Benutzer selbst ausgewählt und markieren die Suchbegriffe in der auf dem Bildschirm angezeigten Liste. \¥ob-Anwendung unterstützt auch die Funktion, mögliche Fehler zu korrigieren (Abb. 2). Denken Sie daran, dass alle Begriffe, die in dem ihm gewidmeten Enzyklopädieartikel gefunden werden, als mit diesem Deskriptor verbunden betrachtet werden.
Um die Suche nach verwandten Begriffen zu erleichtern, wird dem Benutzer nur eine Liste von Schlüsselwörtern angezeigt, die sich auf derselben Seite befinden wie der von ihm gewählte Deskriptor (tatsächlich haben wir dafür nur die Begriffe und Informationen über die Seitenränder in die Datenbank eingegeben). . Da der Artikel möglicherweise nicht die gesamte Seite einnimmt, werden zusätzliche Begriffe in die Liste aufgenommen. Benutzer, Verbindungsaufbau,
Reis. 1. Eingabe von Textdateien mit Begriffen aus dem Schlagwortverzeichnis
Nein. Erstellen eines Deskriptorwörterbuchs - Microsoft Internet Explorer!
Datei Bearbeiten Favoriten anzeigen Tools Hilfe
Q Zurück " © " @ |í| & yP Suchen ^Favoriten - . in
Adresse; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Going Links y>
fiBár JOQQ- © - I * 1 ]0 l de:*- F
1 Abakus | 1, 13 1111111
2 Abelev-Maschine | 1,67 1111111
3 Abelsches Gruppenobjekt | 1, 1149 111 1 | |
4 Abelev-Differenzial 11.13-15 I 2, 240 111111
5 Abelsches Differential, Basis | 1, 13 1111111
6 Abelsches Differential, Divisor | 1, 15 | | | | | 1 |
7 Abelsches normales Differential | 1, 14 1111111
8 Abelsches normalisiertes Differential | 1, 14 1111111
9 Abelsches Differential, Polarperiode | 1, 14 | | | | | | |
10 Abelsches Differential, zyklische Periode | 1, 14 1111111
11 Abelsche Idempotenz 14, 941 1111111
12 Abelsches Integral 11.15-17 1111111
13 Abelsches Integral, Satz von Abel | 1, 17 1111111
14 Abelsches Integral kanonisch |1,16||||||
16 Abelsches Integral, Periodenmatrix |1,16||||||
15 Abelsches Normalintegral | 1, 16|||||||
17 Abelsches Integral, Polarperiode | 1.16||||||| 1S Abelsches Integral, zyklische Periode | 1, 16 | | | | |
19 Abelsches Potential | 2, 239 1111111
20 Abelev eine Gruppe 11.17-20 1111111
21 Eine abelsche Gruppe ist vollständig zerlegbar |1,19||||||
22 Teilbare abelsche Gruppe | 1, 19|||||||
23 Endlich erzeugte abelsche Gruppe | 1.18 1111111
24 Abelsche Gruppe, Kulikov-Kriterium | 1, 18 | | | | | |
25 Abelsche Gruppe, Null | 3.1082 1111111
26 Abelsche Gruppe, periodischer Teil | 1, 18 111 | |
http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+A+1+3
j 5tartApache.bat
Ich Svoj.NET: PHP-Bearbeitung
J Adobe Photoshop || w
^ Lokales Intranet
EN W/mK 21:0;
Reis. 2. Liste von Schlüsselwörtern und Auswahl von Deskriptoren
Reis. 3. Wahl verwandter Begriffe
Reis. 4. Einrichtung von Verbindungsarten.
wählt nur einen Teil der Keywords aus der vorgeschlagenen Liste aus, jedoch reduziert eine solche Automatisierung den Umfang der Routinearbeit erheblich (Abb. 3).
Die Art der Verbindung zwischen dem Deskriptor und dem Schlüsselwort wird durch Ausfüllen des entsprechenden Formulars angegeben (Abb. 4).
Fazit
Die Leistungsfähigkeit dieses Algorithmus und der Webanwendung wurde getestet, indem ein Thesaurus von mehreren Abschnitten des Fachgebiets "Mathematik" ("Differentialgleichungen", "Partielle Differentialgleichungen", "Numerik", "Strömungsmechanik" usw.) erstellt wurde .) basierend auf dem Sachregister "Mathematische Enzyklopädie". Es hat sich herausgestellt, dass für die Einordnung von Begriffen und die Herstellung von Beziehungen zwischen ihnen ein Bachelor-Abschluss ausreicht (sofern in seltenen Fällen ein Experte mit wissenschaftlichem Abschluss für die Beratung hinzugezogen wird). Dies beweist die hohe Effizienz des entwickelten Algorithmus.
Referenzliste
Mikhailov A.I., Cherny A.I., Gilyarevsky R.C. Grundlagen der Informatik. Moskau: Nauka, 1968.
Barakhnin V.B. Entwicklung des Thesaurus des Fachgebietes "Mathematik" // Mater, Conf. "Computer- und Informationstechnologien in Wissenschaft, Technologie und Bildung". Teil 1. Nowosibirsk; Almaty; Ust-Kamenogorsk, 2003, S. 111-115.
Zthes: ein Z39.50-Profil für Thesaurus-Navigation
http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html
Der erste Schritt bei der Erstellung eines Thesaurus bestand darin, nach Informationen über die Struktur von Thesauri, ihre Typen und Betriebsprogramme zu suchen. Der zweite Schritt war die Wahl einer Programmiersprache und eines Schemas für den Aufbau meines zukünftigen Thesaurus. Die dritte Stufe ist die Suche nach Informationen, um sie auszufüllen, dafür habe ich den "Bildungs- und Methodenkomplex Computernetzwerke" verwendet.
Hier sind ein paar Beispiele für Thesauri (siehe Abbildung 1.1 und Abbildung 1.2):
Abbildung 1.1 – Informationsabrufsystem „Thesaurus.com“
Abbildung 1.2 – Glossar der geschlechtsspezifischen Begriffe
Nach dem Sammeln der notwendigen Informationen begann die Erstellung des Thesaurus. Um einen Thesaurus zu erstellen, wurde die Programmiersprache HTML gewählt. Hyper Text Markup Language - "HTML" (Hypertext Markup Language) wird von vielen schon lange nicht mehr nur als Programmiersprache betrachtet. Da das eigentliche Konzept von HTML verschiedene Methoden zum Entwerfen von Hypertext-Dokumenten, Design, Hypertext-Editoren, Browsern und vielem mehr umfasst. Ein Benutzer, der diese Sprache beherrscht, erwirbt die Fähigkeit, ernsthafte Dinge mit einfachen Methoden und vor allem schnell zu tun, was in der modernen Welt als sehr gut gilt!
In der HTML-Sprache können Sie Ihre eigenen Multimedia-Produkte erstellen und auf beliebigen Medien verteilen, und alle diese Produkte, die in Form von HTML-Seiten erstellt wurden, erfordern keine Entwicklung spezialisierter Software-Tools, da alles für die Arbeit erforderlich ist Daten (Webbrowser) gehört mittlerweile zur Standardsoftware der meisten Personal Computer.
Der Code der zukünftigen Webseite wird normalerweise in einem Standard-Texteditor eingetippt, aber es gibt auch andere Programme und Programmiersprachen, zum Beispiel: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.
Zunächst besteht der Thesaurus aus drei Frames: einem Titel-Frame, einem Link-Frame und einem Inhalts-Frame, wie in Abbildung 1.3 gezeigt.
Abbildung 1.3 - Schema des Thesaurus
Die folgenden HTML-Tags und -Attribute wurden verwendet, um die Thesaurusskizze zu erstellen: