Тезаурус. Значення слова зразок у тезаурусі російської мови Відносини слів у тезаурусі
Обчислювальні технології
Том 12, Спеціальний випуск 2, 2007
ТЕХНОЛОГІЯ СТВОРЕННЯ ТЕЗАУРУСУ ПРЕДМЕТНОЇ ОБЛАСТІ НА ОСНОВІ ПРЕДМЕТНОГО ПОКАЗНИКА ЕНЦИКЛОПЕДІЇ
В. Б. Барахнін
Інститут обчислювальних технологій СО РАН, Новосибірськ, Росія
e-mail: [email protected]
В. А. Нехаєва Новосибірський державний університет, Росія e-mail: [email protected]
Ця робота подається як технологія для створення об'єкта домашнього thesaurus, який базується на предметі керування для спеціальної encyclopedia. Така технологія забезпечує високу якість опису об'єкта домашнього використання за допомогою надійних термінів, що дозволяє досягти в першу частину thesaurus з мінімальним поглинанням фахівців у цій особливій області знання. Пропоновані технології також містяться в архітектурібудівельної косметики і веб-бухгалтерського застосування, що реалізує цей algoritm.
Вступ
Одним із найважливіших факторів, що забезпечують успішне виконання інтеграційних науково-дослідних проектів, є ефективне науково-інформаційне забезпечення. Зокрема, спільна робота дослідників кількох (притому не завжди суміжних) спеціальностей вимагає ретельного узгодження використовуваної термінології, бо те саме поняття може позначатися в різних галузях науки різними термінами, а одним терміном - різні поняття.
Інше завдання інформаційного забезпечення проектів - створення інтегрованої картотеки бібліографічних описів документів (тобто статей, книг тощо) за тематикою проекту, складеною шляхом об'єднання ресурсів спільно працюючих дослідників, у кожного з яких за роки його роботи вже накопичено картотеку тій чи іншій тематиці (нині подібні картотеки зберігаються, зазвичай, на електронних носіях). Для полегшення пошуку в картотеці бажано, щоб ключові слова, що характеризують документи, вибиралися наскільки можна з єдиного словника. Для автоматичної класифікації документів, що включені до картотеки або потенційно можуть бути занесеними до неї з електронних баз даних
© Інститут обчислювальних технологій Сибірського відділення Російської академії наук, 2007.
наукових публікацій типу бази даних реферативних журналів, "Current Contents" і т. п., є доцільним використовувати алгоритм координатного індексування. Цей алгоритм заснований на обліку класифікаційних ознак термінів (слів і словосполучень), що входять до тексту, що характеризують ту чи іншу предметну область.
Вирішення перерахованих вище завдань неможливе без створення словника термінів предметної області, причому у цьому словнику мають бути встановлені зв'язки між термінами і проведено класифікацію термінів. Такий словник називається тезаурус (див. докладніше в ). Тезаурус (або нормативний тезаурус) - це словник-довідник, що містить усі лексичні одиниці інформаційно-пошукової мови - дескриптори (разом з ключовими словами, які в межах даної інформаційно-пошукової системи вважаються синонімами цих дескрипторів), причому дескриптори у словнику мають бути систематизовані змісту, а смислові зв'язок між ними експліцитно виражені.
Однак складання тезаурусу "з чистого листа" може вимагати вельми значних трудовитрат фахівців-експертів, які повинні зібрати всі терміни, які досить повно охоплюють предметну область, узгодити їх значення, встановити зв'язки та провести класифікацію. Подібні труднощі, що виникають при вирішенні хоч і важливого, але все-таки допоміжного завдання, здатні негативно вплинути на перспективи її вирішення.
Нами розроблено та реалізовано технологію створення тезаурусу на основі предметного покажчика спеціалізованих енциклопедій. Ця технологія забезпечує висококваліфікований опис предметної галузі з використанням надійно вивірених термінів, дозволяючи провести початковий етап побудови тезаурусу з мінімальним залученням фахівців – експертів у цій предметній галузі. Детальний виклад та обґрунтування алгоритму дано в роботі. Нижче наведено короткий опис алгоритму, а також web-додатку, що реалізує його.
1. Алгоритм створення тезаурусу
В якості списку ключових слів і словосполучень для тезаурус пропонується використовувати предметний покажчик спеціалізованої енциклопедії (або декількох енциклопедій). Вибір конкретної енциклопедії здійснює фахівець з предметної області, і це вибір залежить від цілей, переслідуваних під час створення тезауруса. Так, для вирішення комплексних екологічних завдань доцільно використовувати енциклопедії (або, за їх відсутності, - енциклопедичні словники) з фізики, хімії, геології, біології, медицини, математики тощо. При належному виборі предметний покажчик цілком придатний якщо не як повний , то, як мінімум, як базовий список ключових слів, який при необхідності буде поповнюватися.
Предметні покажчики здебільшого енциклопедій влаштовані подібним чином - у яких містяться терміни, є назвами статей енциклопедії, терміни, визначення яких дано у статтях, і навіть згадані у статтях найважливіші результати.
В якості дескрипторів (тобто термінів, що є іменами класів близьких за змістом понять), покладаються назви статей енциклопедії, а пов'язаними з ними за змістом вважаються слова з предметного покажчика, що зустрічаються у відповідних
статтях. Основною перевагою такого методу є те, що для встановлення типів зв'язків між термінами не потрібно бути експертом у даній предметній галузі – цілком вистачить загальних знань, що дозволяють зрозуміти текст енциклопедії, – більш конкретні відомості, необхідні у процесі класифікації понять, завжди можна почерпнути з конкретної статті .
Оскільки тезаурус, що створюється, призначений для роботи з використанням протоколу Z39.50, типи зв'язків встановлюються відповідно до рекомендацій схеми /л lies , яка виділяє наступні типи:
ВТ - зв'язок з батьківським терміном, тобто з терміном ширшого змісту;
NT - зв'язок з дочірнім терміном, тобто з терміном вужчого сенсу. Зв'язок ВТ - NT є взаємно-зворотним;
USE - зв'язок із терміном, який використовується замість цього;
UF - взаємно-зворотний зв'язок USE;
RT - зв'язок, що визначає пов'язаний за змістом термін;
LE – зв'язок між лінгвістично еквівалентними термінами;
FE – повністю тотожні терміни.
Далі проводиться класифікація дескрипторів відповідно до розділів даної предметної області. Вибір конкретного класифікатора, як і вибір енциклопедії, здійснюється спеціалістом-експертом, причому у разі використання кількох енциклопедій із різних предметних областей можливе використання кількох спеціалізованих класифікаторів. Між дескрипторами і розділами класифікатора встановлюються зв'язки NT, RT, LE (FE), при цьому при класифікації слід використовувати, по можливості, розділи максимально низького рівня.
Після цього ключовим словам, пов'язаним із дескриптором відносинами ВТ, USE, RT, LE та FE, приписується той самий класифікаційний номер, що й дескриптору. Втім, це не виключає такої ситуації, що якщо дескриптор віднесено до класу не найнижчого рівня, то при подальшій роботі експерта терміни, пов'язані з дескриптором відносинами ВТ та USE, можуть бути віднесені до класу нижчого рівня. І тут зазначені терміни самі стануть дескрипторами.
У результаті всі терміни, що входять до предметного покажчика, виявляються розкласифіковані відповідно до розділів даної предметної області.
2. Опис роботи web-додатку
Проте процес побудови тезаурусу відповідно до даної методики передбачає великий обсяг рутинної роботи і, крім того, вимагає участі людини, яка має навички програмування. Тому на додаток до методики було розроблено web-додаток, що володіє дружнім до користувача інтерфейсом і підтримує такі функції:
1) автоматичне переведення інформації з оцифрованих сторінок предметного покажчика до таблиці бази даних;
2) виділення дескрипторів у загальному списку термінів;
3) пошук термінів, пов'язаних з даним дескриптором, та встановлення типів зв'язків відповідно до схеми Zthes.
Важливо, що для виконання всіх вищезгаданих операцій навичок програміста не потрібно.
Розроблений додаток є універсальним, т. о. може бути використане для створення тезаурус різних предметних областей. На даний момент переналаштування програми з предметного покажчика однієї енциклопедії на предметний покажчик іншої (а лише на цьому етані процеси побудови тезаурусів різних предметних областей можуть відрізнятися) виконує програміст, проте ведуться роботи та доповнення програми функціями, що дозволяють проводити цю операцію користувачеві. не має навичок програмування.
Функціонує програму в такий спосіб. Обробка оцифрованих сторінок предметного покажчика проводиться автоматично. Користувач вказує місце розташування текстового файлу з даними, після чого відбувається його строкове зчитування і до бази даних заносяться самі терміни, а також інформація про номери сторінок енциклопедії, де вони розташовані (рис. 1).
Дескриптори із загального списку ключових слів виділяє сам користувач, позначаючи терміни, що шукаються, у виведеному на екран списку. \\оЬ-прикладопіо підтримує також функцію виправлення можливих помилок (рис. 2). Нагадаємо, що пов'язаними з цим дескриптором вважаються всі терміни, що зустрічаються у присвяченій йому статті енциклопедії.
Для полегшення пошуку пов'язаних термінів користувачеві виводиться лише список ключових слів, розташованих на тій же сторінці, що і вибраний ним дескриптор (власне, для цього ми і заносили в базу даних лише терміни, та інформацію про помори сторінок). Зрозуміло, оскільки стаття може займати не всю сторінку цілком, до списку потраплять зайві терміни. Користувач, встановлюючи зв'язки,
Рис. 1. Занесення текстових файлів із термінами з предметного покажчика
№ Створення дескрипторного словника - Microsoft Internet Explorer!
Файл Редагування Вигляд Вибране Сервіс Довідка
Q Назад "©" @ |í| & уР Пошук ^Обране - . в
Адреса; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Перехід Посилання у>
fiBár JOQQ- © - I * 1 ]0 л de:*- Ж
1 Абак | 1, 13 1111111
2 Абелев автомат | 1, 67 1111111
3 Абелев груповий об'єкт | 1, 1149 111 1 | |
4 Абелев диференціал 11.13-15 I 2, 240 111111
5 Абелев диференціал, базис | 1, 13 1111111
6 Абелев диференціал, дивізор | 1, 15 | | | | | 1 |
7 Абелев диференціал нормальний | 1, 14 1111111
8 Абелев диференціал нормований | 1, 14 1111111
9 Абелев диференціал, полярний період | 1, 14 | | | | | | |
10 Абелев диференціал, циклічний період | 1, 14 1111111
11 Абелев ідемпотент 14, 941 1111111
12 Абелев інтеграл 11,15-17 1111111
13 Абелев інтеграл, Абеля теорема | 1, 17 1111111
14 Абелев інтеграл канонічний |1,16||||||
16 Абелев інтеграл, матриця періодів |1,16||||||
15 Абелев інтеграл нормальний | 1, 16|||||||
17 Абелев інтеграл, полярний період | 1,16||||||| 1S Абелев інтеграл, циклічний період | 1, 16 | | | | |
19 Абелев потенціал | 2, 239 1111111
20 Абелєва група 11,17-20 1111111
21 Абелева група цілком розкладається |1,19||||||
22 Абелева група поділена | 1, 19|||||||
23 Абелева група, звичайно, породжена | 1,18 1111111
24 Абелева група, Куликова критерій | 1, 18 | | | | | |
25 Абелева група, нуль | 3,1082 1111111
26 Абелева група, періодична частина | 1, 18 111 | |
http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+А+1+3
j 5tartApache.bat
I Svoj.NET: PHP Edit
J Adobe Photoshop || w
^ Місцева інтрамережа
EN Щ/м До 21:0;
Рис. 2. Список ключових слів та виділення дескрипторів
Рис. 3. Вибір пов'язаних термінів
Рис. 4. Встановлення типів зв'язків.
вибере лише частину ключових слів із запропонованого списку, однак і така автоматизація помітно знижує обсяг рутинної роботи (рис. 3).
Тін зв'язку між дескриптором та ключовим словом уточнюється шляхом заповнення відповідної форми (рис. 4).
Висновок
Працездатність даного алгоритму та web-прикладопія була перевірена шляхом створення тезаурусу ряду розділів предметної області "Математика" ("Диференціальні рівняння", "Рівняння у приватних похідних", "Чисельний аналіз", "Механіка рідини" та ін.) на основі предметного покажчика " Математичної енциклопедії”. Встановлено, що для класифікації термінів та встановлення зв'язків між ними достатньо кваліфікації бакалавра (за умови залучення в окремих випадках для консультацій експерта з науковим ступенем). Це доводить високу ефективність розробленого алгоритму.
Список літератури
Михайлов А.І., Чорний А.І., Гіляревський P.C. Основи інформатики. М: Наука, 1968.
Барахнін В.Б. Розробка тезаурус предметної області "Математика" // Матер, конф. "Обчислювальні та інформаційні технології в науці, техніці та освіті". Ч. 1. Новосибірськ; Алмати; Усть-Каменогорськ, 2003. С. 111-115.
Zthes: a Z39.50 Profile для Thesaurus Navigation
http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html
Першим етапом створення тезаурусу був пошук інформації про будову тезаурусів, його типи та діючі програми. Другим етапом був вибір мови програмування та схема побудови свого майбутнього тезаурусу. Третій етап – це пошук інформації для його заповнення, для цього я використав «Навчально-методичний комплекс Комп'ютерні мережі».
Ось пара прикладів тезаурусів (дивіться малюнок 1.1 та малюнок 1.2):
Малюнок 1.1 - Інформаційно-пошукова система Thesaurus.com
Малюнок 1.2 - Словник ґендерних термінів
Після збору необхідної інформації, почалося створення тезаурусу. Для створення тезаурусу було обрано мову програмування – HTML. Hyper Text Markup Language - «HTML» (мова розмітки гіпертексту) багато хто вже давно перестав його вважати просто мовою програмування. Так як саме поняття HTML включає різні методи оформлення гіпертекстових документів, дизайн, гіпертекстові редактори, браузери і багато іншого. Користувач, який освоїв цю мову, набуває можливості робити серйозні речі простими методами і, головне, швидко, що у світі вважається дуже добре!
На мові HTML можна створювати власні мультимедійні продукти і розповсюджувати їх на будь-яких носіях інформації, і всі ці продукти, виконані у вигляді наборів HTML-сторінок, не вимагають розробки спеціалізованих програмних засобів, оскільки все необхідне для роботи з даними (Web-браузери) стали частиною стандартного програмного забезпечення більшості персональних комп'ютерів.
Код майбутньої Web-сторінки зазвичай набирається в стандартному текстовому редакторі, але є інші програми, і мови програмування, наприклад: Adobe Dreamweaver CS3, JavaScript, Паскаль, С, С++, Бейсик, Пролог.
Почнемо з того, що тезаурус буде складатися з трьох кадрів: кадр з заголовком, кадр з посиланнями і кадр для вмісту, як показано на малюнку 1.3.
Малюнок 1.3 - Схема тезаурусу
Для створення ескізу тезауруса використовували такі теги та атрибути мови HTML: