Sözlük. Rus dili eş anlamlılar sözlüğündeki kelime örneğinin anlamı Eş anlamlılar sözlüğündeki kelimelerin ilişkileri
bilgi işlem teknolojileri
Cilt 12, Özel Sayı 2, 2007
ANSİKLOPEDİN KONU İNDEKSİ TEMELİNDE KONU ALANINA İLİŞKİN BİR ŞEYLER OLUŞTURMA TEKNOLOJİSİ
V. B. Barahnin
Hesaplamalı Teknolojiler Enstitüsü SB RAS, Novosibirsk, Rusya
e-posta: [e-posta korumalı]
V. A. Nekhaeva Novosibirsk Devlet Üniversitesi, Rusya e-posta: [e-posta korumalı]
Bu çalışma, özel ansiklopedi için konu başlığına dayanan, nesne alanı eş anlamlılar sözlüğünün oluşturulması için bir teknolojiyi anlatmaktadır. Bu tür teknoloji, güvenilir terimler kullanarak nesne alanının yüksek kaliteli bir tanımını sunar, böylece bu özel bilgi alanında uzmanların minimum katılımıyla eş anlamlılar sözlüğünün ilk aşamasını oluşturmaya izin verir. Önerilen teknoloji aynı zamanda bir eş anlamlılar sözlüğü oluşturma algoritması ve bu algoritmayı uygulayan web tabanlı bir uygulama içermektedir.
giriiş
Uyum araştırma projelerinin başarılı bir şekilde uygulanmasını sağlayan en önemli faktörlerden biri etkin bilimsel ve bilgi desteğidir. Özellikle, birkaç (ve her zaman ilişkili olmayan) uzmanlıktan araştırmacıların ortak çalışması, kullanılan terminolojinin dikkatli bir şekilde koordinasyonunu gerektirir, çünkü aynı kavram farklı bilim alanlarında farklı terimlerle ve bir terim - farklı kavramlarla gösterilebilir.
Projeler için bilgi desteğinin bir başka görevi, proje konusuyla ilgili belgelerin (yani makaleler, kitaplar, vb.) bibliyografik tanımlarının entegre bir kart dosyasının oluşturulmasıdır. bir veya başka bir konuda bir kart dosyası biriktirdi (şu anda, bu tür dosya dolapları kural olarak elektronik ortamda saklanıyor). Kart dizininde aramayı kolaylaştırmak için, mümkünse belgeleri karakterize eden anahtar kelimelerin tek bir sözlükten seçilmesi arzu edilir. Kart endeksine dahil edilen veya elektronik veri tabanlarından girilebilecek belgelerin otomatik olarak sınıflandırılması için
© Hesaplamalı Teknolojiler Enstitüsü, Rusya Bilimler Akademisi Sibirya Şubesi, 2007.
soyut dergilerin veri tabanı, "Güncel İçerik" vb. bilimsel yayınlarda koordinat indeksleme algoritmasının kullanılması uygun görünmektedir. Bu algoritma, belirli bir konu alanını karakterize eden metinde yer alan terimlerin (kelimeler ve deyimler) sınıflandırma özelliklerinin dikkate alınmasına dayanmaktadır.
Yukarıda sıralanan tüm görevlerin konu alanına ait terimler sözlüğü oluşturulmadan çözümü mümkün değildir ve bu sözlükte terimler arası bağlantılar kurulmalı ve terimlerin sınıflandırılması yapılmalıdır. Böyle bir sözlüğe eş anlamlılar sözlüğü denir (ayrıntılara bakınız). Eş anlamlılar sözlüğü (veya normatif eş anlamlılar sözlüğü), bir bilgi erişim dilinin tüm sözcük birimlerini içeren bir referans sözlüktür - tanımlayıcılar (belirli bir bilgi alma sistemi içinde bu tanımlayıcıların eşanlamlıları olarak kabul edilen anahtar kelimelerle birlikte) ve sözlükteki tanımlayıcılar buna göre sistematize edilmelidir. anlamlandırılır ve aralarındaki anlamsal bağlantılar açıkça ifade edilir.
Ancak, "sıfırdan" bir eş anlamlılar sözlüğü derlemek, konu alanını oldukça kapsayan tüm terimleri bir araya getirmek, anlamlarında anlaşmak, ilişkiler kurmak ve sınıflandırmak zorunda olan uzmanlar için çok önemli miktarda çalışma gerektirebilir. Önemli, ancak yine de yardımcı bir sorunun çözümünde ortaya çıkan benzer zorluklar, çözüm beklentilerini olumsuz yönde etkileyebilir.
Özel ansiklopedilerin konu dizinine dayalı bir eş anlamlılar sözlüğü oluşturmak için bir teknoloji geliştirdik ve uyguladık. Bu teknoloji, güvenilir bir şekilde doğrulanmış terimler kullanarak konu alanının yüksek nitelikli bir tanımını sağlar ve bu konuda uzmanların - bu alandaki uzmanların minimum katılımıyla bir eş anlamlılar sözlüğü oluşturmanın ilk aşamasını gerçekleştirmenize olanak tanır. Algoritmanın ayrıntılı bir sunumu ve gerekçesi çalışmada verilmiştir. Aşağıda algoritmanın kısa bir açıklaması ve onu uygulayan web uygulaması yer almaktadır.
1. Eş anlamlılar sözlüğü oluşturmak için algoritma
Özel bir ansiklopedinin (veya birkaç ansiklopedinin) konu indeksinin, eş anlamlılar sözlüğü için bir anahtar kelime ve kelime öbeği listesi olarak kullanılması önerilir. Belirli bir ansiklopedi seçimi, bir konu uzmanı tarafından yapılır ve bu seçim, eş anlamlılar sözlüğü oluşturulurken izlenen hedeflere bağlıdır. Bu nedenle, karmaşık çevre sorunlarını çözmek için fizik, kimya, jeoloji, biyoloji, tıp, matematik vb. Konularında ansiklopedilerin (veya yokluğunda ansiklopedik sözlüklerin) kullanılması tavsiye edilir. Doğru seçim ile konu indeksi oldukça uygundur, tam değilse , en azından gerektiğinde yenilenecek olan temel bir anahtar kelime listesi olarak.
Çoğu ansiklopedinin konu dizinleri benzer şekilde düzenlenmiştir - ansiklopedi maddelerinin adları olan terimleri, makalelerde tanımları verilen terimleri ve makalelerde belirtilen en önemli sonuçları içerir.
Tanımlayıcılar olarak (yani, anlam bakımından yakın olan kavram sınıflarının adları olan terimler), ansiklopedi maddelerinin adları ve bunlara karşılık gelen konu dizinindeki sözcükler varsayılır.
nesne. Bu yöntemin en büyük avantajı, terimler arasındaki ilişki türlerini kurmak için bu konuda uzman olmanıza gerek olmamasıdır - genel bilgi ansiklopedi metnini anlamak için yeterlidir - sınıflandırma sürecinde daha spesifik bilgilere ihtiyaç vardır. kavramlar her zaman belirli bir makaleden toplanabilir.
Oluşturulan eş anlamlılar sözlüğü Z39.50 protokolünü kullanarak çalışmak üzere tasarlandığından, bağlantı türleri, aşağıdaki türleri ayırt eden /l lie şemasının önerilerine göre ayarlanır:
VT - ana terimle bağlantı, yani. daha geniş anlamda terimle;
NT - bir çocuk terimiyle bağlantı, yani. daha dar anlamda bir terimle. İletişim VT - NT karşılıklı olarak terstir;
KULLANIM, bunun yerine kullanılan terime bir bağlantıdır;
UF - karşılıklı geribildirim KULLANIMI;
RT - ilgili bir terimi tanımlayan bir bağlantı;
LE - dilsel olarak eşdeğer terimler arasındaki ilişki;
FE - tamamen aynı terimler.
Ayrıca tanımlayıcıların sınıflandırılması bu konu alanının bölümlerine göre yapılır. Belirli bir sınıflandırıcı seçiminin yanı sıra bir ansiklopedi seçimi bir uzman tarafından yapılır ve farklı konu alanlarından birkaç ansiklopedi kullanılması durumunda, birkaç özel sınıflandırıcı kullanmak mümkündür. Tanımlayıcılar ve sınıflandırıcının bölümleri arasında NT, RT, LE (FE) biçimindeki bağlantılar kurulurken, sınıflandırma mümkünse mümkün olan en düşük seviyedeki bölümleri kullanmalıdır.
Bundan sonra, BT, USE, RT, LE ve FE ilişkileri tarafından tanımlayıcı ile ilişkilendirilen anahtar kelimelere, tanımlayıcı ile aynı sınıflandırma numarası atanır. Ancak bu, tanımlayıcının en düşük seviyede olmayan bir sınıfa atanması durumunda, Uzman Danışmanın sonraki çalışması sırasında, BT ve USE ilişkileri ile tanımlayıcı ile ilişkilendirilen terimlerin bir sınıfa atanabileceği durumu hariç tutmaz. daha düşük bir sınıf. Bu durumda, bu terimlerin kendileri tanımlayıcı haline gelir.
Sonuç olarak konu indeksinde yer alan tüm terimler bu konu alanının bölümlerine göre sınıflandırılmıştır.
2. Web uygulamasının açıklaması
Bununla birlikte, bu tekniğe uygun olarak bir eş anlamlılar sözlüğü oluşturma süreci, büyük miktarda rutin çalışmayı içerir ve ayrıca programlama becerisine sahip bir kişinin katılımını gerektirir. Bu nedenle, metodolojiye ek olarak, kullanıcı dostu bir arayüze sahip ve aşağıdaki işlevleri destekleyen bir web uygulaması geliştirilmiştir:
1) konu dizininin sayısallaştırılmış sayfalarından bilgilerin bir veritabanı tablosuna otomatik olarak çevrilmesi;
2) genel terimler listesindeki tanımlayıcıların seçimi;
3) belirli bir tanımlayıcıyla ilişkili terimleri arayın ve Zthes şemasına göre bağlantı türlerini ayarlayın.
Yukarıda belirtilen tüm işlemleri gerçekleştirmek için herhangi bir programcı becerisinin gerekli olmadığına dikkat etmek önemlidir.
Geliştirilen uygulama evrenseldir, yani. çeşitli konu alanları için eş anlamlılar sözlüğü oluşturmak için kullanılabilir. Şu anda, programın bir ansiklopedinin konu dizininden diğerinin konu dizinine yeniden yapılandırılması (ve sadece bu aşamada farklı konu alanlarının sözlük oluşturma süreçleri farklı olabilir) programcı tarafından gerçekleştirilir, ancak iş programı, kullanıcının bu işlemi gerçekleştirmesine izin veren işlevlerle tamamlamaya devam ediyor. programlama becerisi olmadan.
Uygulama aşağıdaki gibi çalışır. Sayısallaştırılmış dizin sayfalarının işlenmesi otomatik olarak gerçekleştirilir. Kullanıcı, verilerle birlikte metin dosyasının konumunu belirtir, ardından satır satır okunur ve terimlerin kendileri, bulundukları yerdeki ansiklopedi sayfa numaraları hakkında bilgilerle birlikte veri tabanına girilir (Şekil 1).
Genel anahtar kelime listesinden tanımlayıcılar, kullanıcının kendisi tarafından seçilir ve ekranda görüntülenen listedeki arama terimlerini işaretler. \¥ob-application, olası hataları düzeltme işlevini de destekler (Şekil 2). Ona ayrılmış ansiklopedi makalesinde bulunan tüm terimlerin bu tanımlayıcı ile ilişkili olarak kabul edildiğini hatırlayın.
İlgili terimleri aramayı kolaylaştırmak için, kullanıcıya yalnızca kendisi tarafından seçilen tanımlayıcı ile aynı sayfada bulunan anahtar kelimelerin bir listesi gösterilir (aslında bunun için veritabanına yalnızca terimleri ve sayfa kenarlıkları hakkında bilgi girdik) . Elbette makale tüm sayfayı kaplamayabileceği için listeye ekstra terimler eklenecektir. Kullanıcı, bağlantı kurma,
Pirinç. 1. Konu dizininden terimler içeren metin dosyaları girme
Hayır. Tanımlayıcı Sözlük Oluşturma - Microsoft Internet Explorer!
Dosya Düzenle Sık Kullanılanları Görüntüle Araçlar Yardım
S Geri " © " @ |í| & yP Arama ^Favoriler - . içinde
Adres; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Devam Eden Bağlantılar y>
fiBár JOQQ- © - I * 1 ]0 l de:*- F
1 Abaküs | 1, 13 11111111
2 Abelev makinesi | 1.67 11111111
3 Değişken grup nesnesi | 1, 1149 111 1 | |
4 Abelev diferansiyel 11.13-15 I 2, 240 111111
5 Değişmeli diferansiyel, temel | 1, 13 11111111
6 Değişken diferansiyel, bölen | 1, 15 | | | | | 1 |
7 Değişken normal diferansiyel | 1, 14 11111111
8 Değişmeli normalleştirilmiş diferansiyel | 1, 14 11111111
9 Değişmeli diferansiyel, kutup dönemi | 1, 14 | | | | | | |
10 Değişmeli diferansiyel, döngüsel periyot | 1, 14 11111111
11 Değişken idempotent 14, 941 11111111
12 Değişken integral 11.15-17 111111
13 Değişmeli integral, Abel teoremi | 1, 17 11111111
14 Değişmez integral kanonik |1,16||||||
16 Değişmez integral, periyot matrisi |1,16||||||
15 Değişmeli normal integral | 1, 16|||||||
17 Değişmeli integral, kutup dönemi | 1.16||||||| 1S Değişen integral, döngüsel periyot | 1, 16 | | | | |
19 Değişmeli potansiyel | 2, 239 11111111
20 Abelev bir grup 11.17-20 11111111
21 Bir Abelian grubu tamamen ayrıştırılabilir |1,19||||||
22 Bölünebilir Değişken grubu | 1, 19|||||||
23 Sonlu olarak oluşturulmuş Abelian grubu | 1.18 11111111
24 Değişken grup, Kulikov kriteri | 1, 18 | | | | | |
25 Değişmeli grup, sıfır | 3.1082 11111111
26 Değişmeli grup, periyodik kısım | 1, 18 111 | |
http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+A+1+3
j 5tartApache.bat
Ben Svoj.NET: PHP Düzenleme
J Adobe Photoshop || w
^ Yerel intranet
EN W/m K 21:0;
Pirinç. 2. Anahtar kelimelerin listesi ve tanımlayıcıların seçimi
Pirinç. 3. İlgili terimlerin seçimi
Pirinç. 4. Bağlantı türlerinin kurulması.
önerilen listeden anahtar kelimelerin sadece bir kısmını seçer, ancak bu tür bir otomasyon rutin iş miktarını önemli ölçüde azaltır (Şekil 3).
Tanımlayıcı ile anahtar kelime arasındaki bağlantı türü, uygun form doldurularak belirlenir (Şekil 4).
Çözüm
Bu algoritmanın ve web uygulamasının performansı, "Matematik" ("Diferansiyel Denklemler", "Kısmi Diferansiyel Denklemler", "Sayısal Analiz", "Akışkanlar Mekaniği" vb. .) "Matematiksel Ansiklopedi" konu dizinine dayanmaktadır. Terimlerin sınıflandırılması ve aralarındaki ilişkilerin kurulması için bir lisans yeterliliğinin yeterli olduğu tespit edilmiştir (nadir durumlarda istişareler için bilimsel dereceye sahip bir uzmanın dahil edilmesi şartıyla). Bu, geliştirilen algoritmanın yüksek verimliliğini kanıtlamaktadır.
bibliyografya
Mikhailov A.I., Cherny A.I., Gilyarevsky R.C. Bilişimin temelleri. Moskova: Nauka, 1968.
Barakhnin V.B. "Matematik" konu alanının eş anlamlılarının geliştirilmesi // Mater, Conf. "Bilim, teknoloji ve eğitimde bilgi işlem ve bilgi teknolojileri". Bölüm 1. Novosibirsk; Almatı; Ust-Kamenogorsk, 2003, s. 111-115.
Zthes: Thesaurus Navigasyonu için bir Z39.50 Profili
http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html
Bir eş anlamlılar sözlüğü oluşturmanın ilk adımı, eş anlamlılar sözlüğünün yapısı, türleri ve işletim programları hakkında bilgi aramaktı. İkinci aşama, bir programlama dili seçimi ve gelecekteki eş anlamlılar sözlüğümü oluşturmak için bir plandı. Üçüncü aşama, doldurulacak bilgi arayışıdır, bunun için "Eğitimsel ve metodolojik karmaşık Bilgisayar ağlarını" kullandım.
İşte birkaç eşanlamlılar sözlüğü örneği (bkz. Şekil 1.1 ve Şekil 1.2):
Şekil 1.1 - Bilgi alma sistemi "Thesaurus.com"
Şekil 1.2 - Cinsiyet terimleri sözlüğü
Gerekli bilgileri topladıktan sonra eş anlamlılar sözlüğünün oluşturulmasına başlandı. Bir eş anlamlılar sözlüğü oluşturmak için programlama dili seçildi - HTML. Hiper Metin İşaretleme Dili - "HTML" (Köprü Metni İşaretleme Dili), birçoğu onu sadece bir programlama dili olarak görmeyi bıraktı. HTML kavramı, köprü metni belgeleri, tasarım, köprü metni düzenleyicileri, tarayıcılar ve çok daha fazlasını tasarlamanın çeşitli yöntemlerini içerdiğinden. Bu dile hakim olan bir kullanıcı, modern dünyada çok iyi kabul edilen basit yöntemlerle ve en önemlisi hızlı bir şekilde ciddi şeyler yapma becerisi kazanır!
HTML dilinde, kendi multimedya ürünlerinizi oluşturabilir ve bunları herhangi bir ortama dağıtabilirsiniz ve HTML sayfaları kümesi şeklinde yapılan tüm bu ürünler, çalışmak için gerekli her şey olduğundan, özel yazılım araçlarının geliştirilmesini gerektirmez. veriler (Web tarayıcıları), çoğu kişisel bilgisayarın standart yazılımının bir parçası haline gelmiştir.
Gelecekteki Web sayfasının kodu genellikle standart bir metin düzenleyicide yazılır, ancak başka programlar ve programlama dilleri de vardır, örneğin: Adobe Dreamweaver CS3, JavaScript, Pascal, C, C++, BASIC, Prolog.
Başlangıç olarak, eş anlamlılar sözlüğü üç çerçeveden oluşacaktır: Şekil 1.3'te gösterildiği gibi bir başlık çerçevesi, bir bağlantı çerçevesi ve bir içerik çerçevesi.
Şekil 1.3 - Eşanlamlılar sözlüğü şeması
Eşanlamlılar sözlüğü taslağını oluşturmak için aşağıdaki HTML etiketleri ve nitelikleri kullanıldı: