IDENTIFYING KEYWORDS ON THE BASIS OF CONTENT MONITORING METHOD IN UKRAINIAN TEXTS

Authors

  • O. V. Bisikalo Vinnytsia National Technical University, Vinnytsia, Ukraine, Ukraine
  • V. A. Vysotska Lviv Polytechnic National University, Lviv, Ukraine, Ukraine

DOI:

https://doi.org/10.15588/1607-3274-2016-1-9

Keywords:

text, a Ukrainian, algorithm, content monitoring, keywords, content analysis, Porter stemmer, linguistic analysis, pars

Abstract

The task of developing algorithmic providing processes of content monitoring for the problem solution of determining a keyword in
Ukrainian text is solved. The formal justification of content monitoring in text using Porter stemmer is considered. The basis of the stemming modification is the known results of morpheme and word building structure derivatives classification in Ukrainian language, affix combinatorics patterns identification, modeling the structural organization of verbs and suffixal nouns and morphonological modifications in the verb inflection and word formation and inflection of adjectives in Ukrainian language. The method decomposition is conducted and the algorithmic software of its basic structural components of the text content analysis results is developed. Theoretically means to improve the performance indicators of keywords search are identified, including keyword density in text. Based on the software obtained results of experimental testing of the proposed method of content monitoring to keywords identification in scientific texts of technical profile are developed. It is detected that the chosen experimental base of 100 works the article analysis method the without the initial required information and without the reference list reaches the best results for the density criterion, but with the specified blocked words and qualifying thematic dictionary verification.

References

Берко А. Системи електронної контент-комерції / А. Берко, В. Висоцька, В. Пасічник. – Л. : НУЛП, 2009. – 612 с. 2. Математична лінґвістика / [В. Висоцька, В. Пасічник, Ю. Щербина, Т. Шестакевич]. – Л. : «Новий Світ-2000», 2012. – 359 с. 3. Найефективніші методи залучення потенційних клієнтів [Електронний ресурс] / Центр ресурсів якості трафіку оголошень, Google AdWords. – Режим доступу: http://www.google.com/intl/ uk_ALL/ads/adtrafficquality/advertisers/best-practices-forgenerating-leads.html. – Назва з титул. екрану. 4. Нечеткий поиск в тексте и словаре [Електронний ресурс]. – Режим доступу: http://habrahabr.ru/post/114997/. – Назва з титул. екрану. 5. Реализации алгоритмов. Расстояние Левенштейна [Електронний ресурс]. – Режим доступу: http://ru.wikibooks.org/wiki/ Реализации_алгоритмов/Расстояние_Левенштейна. – Назва з титул. екрану. 6. Задача о расстоянии Дамерау-Левенштейна [Електронний ресурс]. – Режим доступу: http://neerc.ifmo.ru/wiki/i n d e x . p h p ? t i t l e = % D 0 % 9 7 % D 0%B0 %D0%B4 %D0%B0 %D1%8 7 %D0%B0 _%D0 %B E _ % D 1 % 8 0 % D 0 % B 0 % D 1 % 8 1 % D 1 %81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B8_%D0% 94%D0%B0%D0%BCD0%B5%D1%80%D0%B0%D1%83-% D 0 % 9 B % D 0 % B 5 % D 0 % B 2 % D 0 % B 5 % D0%BDD1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0. – Назва з титул. екрану. 7. Насонов Д. Функция Левенштейна [Електронний ресурс] / Д. Насонов. – Режим доступу: http://rain.ifmo.ru/cat/data/theory/unsorted/levenshtein-2006/article.pdf. – Назва з титул. екрану.

Published

2016-01-04

How to Cite

Bisikalo, O. V., & Vysotska, V. A. (2016). IDENTIFYING KEYWORDS ON THE BASIS OF CONTENT MONITORING METHOD IN UKRAINIAN TEXTS. Radio Electronics, Computer Science, Control, (1). https://doi.org/10.15588/1607-3274-2016-1-9

Issue

Section

Progressive information technologies