Выявление семантического ядра частотных слов в якутском олонхо
(на примере олонхо «Нюргун Боотур Стремительный»)
THE IDENTIFICATION OF THE SEMANTIC KERNEL OF FREQUENCY WORDS IN THE YAKUT OLONKHO
(ON THE EXAMPLE OF OLONKHO «Impetuous NYURGUN BOOTUR «)
И. И. Санникова, Т. Е. Григорьева, И. И. Колесов
I. I. Sannikova, T. E. Grigoryeva, I. I. Kolesov
В статье рассматриваются наиболее часто повторяющиеся слова якутского языка на примере олонхо. Для анализа выбрана песня первая олонхо «Нюргун Боотур Стремительный», в которой объясняется происхождение мира.
The most often repeated Yakut words on the example of olonkho are considered in the article. The first part of olonkho «Impetuous Nuirgin Bootur» is chosen for the analysis.
Ключевые слова и фразы: частотность слов, олонхо, статистика текста, семантическое ядро, стоп-слова.
Key words: frequency of the words, olonkho, statistics of the text, semantic kernel, stop-words.
Одним из принципов, связывающих язык и культуру, является частотность слов. В каждом языке есть наиболее часто употребляемые слова. Это отражается и в словарях: слово характеризуется пометами: общеупотребительное, малоупотребительное. Существуют даже частотные словари.
Известный лингвист А. Вежбицкая считает: «Хотя разработанность словаря, несомненно, представляет собою ключевой показатель специфических черт различных культур, он, конечно, не является единственным показателем. Родственный показатель, часто не учитываемый, состоит в частоте употребления. Например, если какое-то английское слово можно сопоставить по смыслу с некоторым русским словом, но при этом английское слово является распространенным, а русское используется редко (или наоборот), то данное отличие наводит на мысль об отличии в культурной значимости
Нелегко получить точное представление о том, сколь общеупотребительным является слово в некотором данном обществе. На самом деле задача полностью объективного “измерения” частотности слов по своей природе неразрешима. Результаты всегда будут зависеть от размеров корпуса и выбора входящих в него текстов» [1, 1999: 289].
Целью нашей работы является выявление частотных слов в якутском языке.
Объект исследования – олонхо «Нюргун Боотур Стремительный». На наш взгляд, героический эпос народа наиболее ярко выражает его мировоззрение и идеалы. Для начала мы решили проанализировать песнь первую, которая объясняет происхождение мира.
Предмет исследования — наиболее частотные слова, употребляемые в песне первой олонхо «Нюргун Боотур Стремительный».
В современное время существуют современные технологии, которые могут подсчитать количество слов в каком-либо документе и выявить наиболее частотные слова. Мы выбрали сайт Advego.
Advego (Адвего) — одна из крупнейших систем по организации процесса покупки и продажи контента и сопутствующих услуг в русскоязычном сегменте интернета. Это источник уникального контента для оптимизаторов и постоянная хорошо оплачиваемая работа для всех желающих заработать.
Среди услуг, предлагаемых сайтом, есть seo-анализ текстов.
SEO-анализ текста — семантический анализ текста онлайн: статистика и параметры текста, выявление семантического ядра.
Программа делит слова текста на две составляющие: семантическое ядро и стоп-слова.
Мы ввели для SEO-анализа текст песни первой олонхо «Нюргун Боотур Стремительный». Программа выделила 1656 слов, определяемых ею как семантически значимые. В семантическое ядро входят слова, которые повторяются 2 и более раза — их 705.
Наиболее часто повторяющиеся слова:
Небо — 42 повтора
Оно — 33 повтора
Три — 28 повторов
Земля — 24 повтора
Мир — 23 повтора
Род -18 повторов
Племя, чей -17 повторов
Подземный – 16 повторов
Айыы, тойон — 14 повторов
Великий, словно — 13 повторов
Море, сила — 11 повторов
Высокий, огонь, тридцать — 10 повторов
Судьба — 9 повторов
Абаасы, железный, каменный, край, поселить, средний, хотун — 8 повторов
Белые, богатырь, владыка, восемь, говорят, гор, девять, земной, имя, пора, спина, cтаруха, широкий — 7 повторов
Беда, бездна, будто, быль, верхний, вечный, вода, все, грозный, деть, дитя, живой, кровь, крутой, огромный, перо, появиться, преисподняя, свирепый, солнце, сталь, улус, черный, шесть – 6 повторов.
В семантическое ядро вошли слова, значение которых непонятно: иза, миро. Также в это группу вошли слова, которые должны были войти в группу стоп-слов: словно, из-за, чей, словно, будто, все. В конце списка много словосочетаний, таких как: в срединном мире, владыки небес, а также составных имен божеств и абаасы: Аан Алахчын Хотун, Чынгыс Хаан, Арсан Дуолай.
Если анализировать слова, которые повторяются шесть и более раз по морфологическом признаку, то преобладают имена существительные (32), имена прилагательные (17), имена числительные (5), глаголы (4).
Имена существительные |
Имена прилагательные |
Глаголы |
Числительные |
10. Огонь 11. Сила 12. Абаасы 13. Край 14. Хотун 15. Богатырь 16. Владыка 17. Горы 18. Имя 19. Пора 20. Спина 21. Старуха 22. Беда 23. Бездна 24. Быль 25. Вода 26. Дитя 27. Кровь 28. Перо 29. Преисподняя 30. Солнце 31. Сталь 32. Улус
|
10. Верхний 11. Вечный 12. Грозный 13. Живой 14. Крутой 15. Огромный 16. Свирепый 17. Черный |
|
Среди существительных можно выделить следующие семантические группы: слова, называющие природные явления (небо, земля, море, горы, солнце), слова, обозначающие божеств, абаасы и людей и их объединения (айыы, абаасы, тойон, хотун, владыка, богатырь, дитя, старуха, род, племя, улус), слова, обозначающие отвлеченные понятия (сила, судьба, беда).
Среди прилагательных можно выделить качественные прилагательные (великий, высокий, широкий, верхний, грозный, крутой, свирепый, огромный, свирепый), относительные прилагательные (железный, каменный), цветообозначения (белый, зеленый, черный).
В группу числительных вошли символические для якутской культуры числа: три, восемь, девять, шесть.
Ситуация с глаголами может быть объяснена тем, что многие глаголы попали в группу стоп-слов.
В группу стоп-слов программа выделила слова, которые не являются семантически значимыми – их 100. Это предлоги (в, на, с и другие), союзы (и, что, когда и другие), частицы (не, ли и другие), местоимения (он, мой, вы и другие). Как ни странно, в эту группу также попали слова, семантически значимые, такие как быть, друг, нога, сторона, человек и другие. Эта группа также упорядочена по количеству повторов, повторяемых слов 75 из 100.
Наиболее повторяемые стоп-слова:
в -123 повтора
на-88 повторов
с— 77 повторов
и-58 повторов.
В результате анализа мы можем сделать следующие выводы:
- Проведенный автоматический семантический анализ вполне может выполнить трудоемкую работу подсчета количества повторяемых слов в том или ином отрывке. Однако он требует корректировки, прежде всего в разделении слов на семантически значимые и не значимые слова.
- Такой анализ также не учитывает многозначность слова, а также контекст, в котором употребляется слово. Например, слово мир можно понимать как вселенная или как согласие, примирение.
- Что касается самого анализа, то в отрывке наиболее частотными являются существительные.
- Наиболее частотными в первой песне, объясняющей происхождение мира, являются слова: небо (небеса), земля, мир. В этой триаде слов объясняется деление всего сущего на три мира: небо (верхний мир), земля (средний мир), подземный мир (бездна, преисподняя).
- Интересно было бы проделать анализ других частей олонхо, а также других фольклорных текстов.
Литература
- Вежбицкая А. Семантические универсалии и описание языков. – М.: Языки русской культуры, 1999. – С. 263-305.
Санникова Инна Иннокентьевна – кандидат педагогических наук, доцент кафедры иностранных языков и гуманитарных дисциплин Арктического государственного института искусств и культуры, г. Якутск
Григорьева Тамара Евгеньевна — студентка I курса отделения «Теория и история народной художественной культуры» факультета фольклора и этнокультуры народов Арктики Арктического государственного института искусств и культуры, г. Якутск
Колесов Иннокентий Иннокентьевич – студент I курса отделения «Прикладная информатика» факультета информационных, библиотечных технологий и менеджмента культуры Арктического государственного института искусств и культуры, г. Якутск