ISSN 2225-7551

УДК 004.519.7(045)

 

А.І. Вавіленкова, канд. техн. наук

Національний авіаційний університет, м. Київ, Україна

АНАЛІЗ МЕТОДІВ ПОШУКУ СИНОНІМІВ В ЕЛЕКТРОННИХ ДОКУМЕНТАХ

А.И. Вавиленкова, канд. техн. наук

Национальный авиационный университет, г. Киев, Украина

АНАЛИЗ МЕТОДОВ ПОИСКА СИНОНИМОВ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ

Anastasiia Vavilenkova, PhD in Technical Sciences

National Aviation University, Kyiv, Ukraine

ANALYSIS OF THE METHODS OF SEARCHING SYNONYMS IN ELECTRONIC DOCUMENTS

Проаналізовано статистичні засоби пошуку синонімів у природномовних текстах, розглянуто алгоритми пошуку синонімів, що ґрунтуються на використанні тезауруса мови. Запропоновано формальні умови виявлення синонімічних конструкцій через використання логіко-лінгвістичних моделей. Це стало можливим завдяки дослідженню трансформацій слів. Проведено статистичний аналіз використання синонімічних конструкцій у різних типах текстових документів.

Ключові слова: природна мова, синоніми, конверсиви, трансформація, аналіз тексту, логіко-лінгвістичні моделі, електронні документи.

Осуществлен анализ статистических методов поиска синонимов в текстах естественного языка, рассмотрены алгоритмы поиска синонимов, которые основываются на использовании тезауруса речи. Предложены формальные условия нахождения синонимических конструкций путем использования логико-лингвистических моделей. Это стало возможным благодаря исследованию трансформаций слов. Проведен статистический анализ использования синонимических конструкций в различных типах текстовых документов.

Ключевые слова: естественный язык, синонимы, конверсивы, трансформация, анализ текста, логико-лингвистическая модель, электронные документы.

The article presents the analysis of the statistical methods of searching for synonyms in natural language text .The algorithms are based on the use of a thesaurus of speech. The proposed formal conditions for searching synonymous constructions are possible by means of logic-linguistic models. All that can be done due to the study of transformations of words. Article provides with statistical analysis of the use of synonymous structures in different types of text documents.

Key words: natural language, synonyms, conversions, transformation, text analysis, logic-linguistic models, electronic documents.

Постановка проблеми. Проблема пошуку синонімічних конструкцій займає одну з першочергових позицій у процесі здійснення змістовної обробки електронних документів. Адже методи пошуку взаємозамінних синтаксичних складових, що використовуються сьогодні пошуковими системами, – статистичні і не враховують зміст текстової інформації. Через це інформаційний простір наповнений величезною кількістю електронних документів, які дублюються повністю, дещо змінені чи трансформовані за рахунок неточного перекладу, а на запит користувача видаються відповіді з все меншою релевантністю.

Для змістовного автоматичного аналізу електронних документів необхідно розробити такий формальний апарат, який об’єднував би в собі всі можливі способи подання контексту (з позиції лінгвістики) та математичні методи їх виявлення. Для знаходження текстових збігів та логічних суперечностей потрібні алгоритми ідентифікації синонімічних конструкцій, що є основою порівняльного аналізу за змістом.

Синонімами вважають вирази, які збігаються або близькі за лексичним значенням, здатні замінити одне одного в деяких контекстах [1]. Якщо формалізувати умови виявлення синонімів у природномовних текстах, то стає можливою автоматизація порів­няльного аналізу електронних документів за змістом.

Аналіз останніх досліджень і публікацій. Аналіз досліджень у сфері комп’ютерної лінгвістики показав, що чисельні теорії та експерименти у сфері аналітичної обробки текстової інформації досі не дали можливість створити автоматизовану систему змістовного аналізу текстових документів. На заваді стають такі проблеми, як знаходження синонімів, автоматичне зняття омонімії, інверсний порядок слів у реченні, логічні суперечності, авторські знаки у текстах та ін.

Зокрема, вирішенням перерахованих вище проблем займаються Н.Ф. Алєфіренко, намагаючись через різні інтерпретації синтаксичного значення дійти до семантичної суті [2], Dirk Geeraerts у роботі «Cognitive linguistics: basic readings research» [3], М.В. Нікітін, досліджуючи компоненти змістовної структури поняття та ієрархії узагальнень [4].

М.О. Кронгауз [5] у своїх дослідженнях позиціонує синоніми як слова, що повинні відноситися до тієї ж самої частини мови, спираючись на роботи Ю.Д. Апресяна [6], наполягає на однаковій кількості активних семантичних валентностей та співвіднесенні однакових валентностей з однаковими ролями.

Американські лінгвісти Dan Jurafsky та Christopher Manning [7] пропонують курс лекцій з обробки природномовних текстів, у якому узагальнюють всю відому на сьогодні інформацію щодо морфологічного, синтаксичного, семантичного та когнітивного аналізу текстової інформації.

Виділення не вирішених раніше частин загальної проблеми. Саме відсутність формальних засобів виявлення синонімічних конструкцій є основною проблемою на шляху автоматизованого порівняння текстових документів за змістом. Тому матеріали дослідження спрямовані на розроблення формального апарату, який дозволить знаходити в електронних документах синонімічні конструкції, враховуючи всі можливі їх вираження.

Мета статті. Метою роботи є аналіз методів пошуку синонімів в електронних документах, виявлення недоліків наявних методів та розроблення нових алгоритмів, що забезпечили б можливість виявлення змісту текстової інформації та дали б можливість автоматично порівнювати контекст текстових документів.

Виклад основного матеріалу. Сучасні системи обробки текстової інформації вирішують проблему виявлення синонімічних конструкцій як завдання пошуку фрагментів тексту, що збігається з шаблоном. Зокрема, для цього використовуються алгоритми пошуку підрядочка в рядочку, наприклад, алгоритм Карпа-Рабіна, метод шинглів, алгоритм Кнута-Морріса-Пратта, алгоритм Бойєра-Мура [8], методи лексичних сигнатур, алгоритм виявлення інформаційних сюжетів [9].

У комп’ютерній лінгвістиці застосовується поняття відстані Левенштейна, яке означає мінімальну кількість операцій вставки, видалення та заміни одного символу на інший, що необхідно для перетворення одного рядочка в інший [10].

Нехай і два рядочки довжиною та відповідно, тоді відстань Левенштейна Наукова бібліотека ЧНТУ © 2012