Формализация индивидуальной лексической сочетаемости как средство описания идиостилей: корпусное сопоставительное исследование классической прозы XIX в.
Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований (проект № 19-012-00104)
Проект посвящен выработке и апробации корпусной модели формализации индивидуальной лексической сочетаемости в художественном тексте. Данная модель построена на основании сопоставительного статистического анализа, единицы которого – лексические биграммы (пары слов, употребляющихся в одном фразовом контексте), характерные для текстов одного писателя в отличие от других авторов. Исследование выполнено на материале классической художественной прозы XIX вв., а именно произведений Л. Н. Толстого, Ф. М. Достоевского, И. С. Тургенева, И. А. Гончарова и А. П. Чехова (около 4 млн текстоформ).
Формализация лексической сочетаемости (лексической синтагматики) является фундаментальной задачей теоретической и прикладной лингвистики. Результаты исследования могут быть использованы в лингвистике текста, авторской лексикографии, корпусной лингвистике, а также в междисциплинарной сфере автоматической обработки текста.
Корпусное сопоставительное исследование авторской лексической синтагматики в русской классической прозе XIX в. успешно реализовано. Разработана оригинальная модель формализации авторской лексической сочетаемости, проведено масштабное идиостилевое сопоставление произведений А. П. Чехова, Ф. М. Достоевского, И. А. Гончарова, И. С. Тургенева и Л. Н. Толстого.
Создан корпус избранных текстов со снятой межсловной грамматической омонимией (около 4 млн текстоформ). Определен массив наиболее частотных лексем, которые встречаются в текстах всех избранных авторов, а также индивидуально-авторские частотные слова, списки которых однозначно отождествляются со стилями пяти писателей. Получен массив лексических биграмм, в которые входит частотная лексика, а внутри него – перечни индивидуально-авторских биграмм, встречающихся в разных произведениях одного автора и не найденных в произведениях других авторов. Сформированы индивидуально-авторские профили лексической сочетаемости.
На базе идеографического синопсиса (набора денотативных сфер и групп) размечен семантический корпус контекстов с индивидуально-авторскими биграммами, определены контекстные семантические отношения. Получена статистика распределения идеографических категорий в творчестве пяти писателей, которой дана необходимая идиостилевая интерпретация.
Осуществлен масштабный сравнительный идиостилевой анализ индивидуально-авторской лексической сочетаемости; проведенное обобщение отражает выявленные синтагматические особенности творчества каждого автора и их филологическую интерпретацию.
Проанализированы известные концепции авторской синтагматики в текстах изучаемых авторов. На основании сопоставления филологической информации сделаны выводы о достижениях проведенного исследования и его новизне. Разработаны концепция и общая структура будущей монографии, отражающей особенности авторской синтагматики в творчестве изучаемых авторов.
Актуальная информация о проекте размещена на сайте Уральского федерального университета (https://urgi.urfu.ru/formalization/). За время работы по проекту участники коллектива сделали 13 докладов на научных конференциях. По теме проекта подготовлено 18 статей, из них опубликовано 14 (в том числе 4 в журналах, индексируемых Scopus и WoS, 3 – в журналах, включенных в перечень ВАК) и принято в печать 4 (в том числе 1 – в журнале, индексируемом WoS).
A corpus comparative study of the author's lexical syntagmatics in Russian classical prose of the 19th century has been successfully implemented. The research group developed an original model of formalization of the author's lexical compatibility and carried out a large-scale idiostyle comparison of the works by A. P. Chekhov, F. M. Dostoevsky, I. A. Goncharov, I. S. Turgenev, and L. N. Tolstoy.
A corpus of selected texts with identified inter-word grammatical homonymy (about 4 million text forms) has been formed. An array of the most frequent lexemes found in the texts of all the selected authors, as well as individual author's frequency words, the lists of which are uniquely match the styles of five writers, is determined. An array of lexical bigrams has been obtained, which includes frequency vocabulary, containing lists of individually authored bigrams found in different works of one author and not found in the works of other authors. Individual author profiles of lexical compatibility have been designed.
The semantic corpus of contexts with individual author's bigrams is marked out on the basis of an ideographic synopsis (a set of denotative spheres and groups), their contextual semantic relations are determined. The statistics of the distribution of ideographic categories in the works of five writers has been obtained, their idiostyles have been interpreted.
A large-scale comparative idiostyle analysis of individual author's lexical compatibility is carried out; the generalization reflects the singled-out syntagmatic features of each author's works and their philological interpretation.
The well-known concepts of the author's syntagmatics in the texts of the five authors are analyzed. Based on the comparison of philological information, conclusions are drawn about the achievements of the conducted research and its novelty. The concept and general structure of the future monograph reflecting the features of the author's syntagmatics in the works of the authors studied have been developed.
Up-to-date information about the project is available on the website of the Ural Federal University (https://urgi.urfu.ru/formalization/). During the work on the project, the research group members presented 13 reports at conferences. 18 articles have been prepared on the topic of the project, 14 of them have been published (including 4 in journals indexed by Scopus and WoS, 3 in journals included in the Higher Attestation Commission list) and 4 have been accepted for publication (including 1 in a journal indexed by WoS).
Мухин Михаил Юрьевич, доктор филологических наук, профессор кафедры фундаментальной и прикладной лингвистики и текстоведения.
В 1995 г. после окончания Уральского государственного университета им. А. М. Горького стал работать преподавателем и в 1998 г. защитил кандидатскую диссертацию на тему «Синтагматическое напряжение в романах Владимира Набокова». В 2011 г. состоялась защита докторской диссертации «Лексическая статистика и идиостиль автора: корпусное идеографическое исследование (на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова)».
Читает в УрФУ лекции по различным дисциплинам фундаментальной и прикладной лингвистики («Общая фонетика», «Компьютерная лингвистика», «Корпусная лингвистика», «Автоматическая обработка текста», «Основы прикладной лингвистики», «Статистический анализ текста» и др.).
Является участником лексикографической группы «Русский глагол» и одним из авторов серии известных идеографических словарей. Имеет около 130 опубликованных научных работ. Основные области научных интересов: семантика текста, лексикология, лексикография, компьютерная лингвистика.
В 2019 году участниками проекта осуществлен 1-й этап исследования. Разработана оригинальная модель формализации авторской лексической сочетаемости в русской классической прозе XIX в. Модель определяет принципы проведения сопоставительного статистического анализа сочетаемости и его последующей филологической интерпретации. Единицы анализа — лексические биграммы (пары слов, употребляющихся в одном фразовом контексте), которые характерны для текстов одного писателя в отличие от других авторов. Разработанная модель имеет универсальный характер и может быть реализована на материале текстов разных авторов и разных функциональных стилей. Кроме того, она является востребованной для авторской лексикографии, лексической семантики и решения задач автоматической обработки текста.
Сформирован корпус избранных текстов Л. Н. Толстого, Ф. М. Достоевского, И. С. Тургенева, А. П. Чехова. Для большей репрезентативности в корпус включены также романы И. А. Гончарова. Тексты приведены к единому формату, нормализованы; проведена общая структуризация и снятие межсловной грамматической омонимии; осуществлена значительная лингвистическая коррекция результатов автоматического морфологического анализа.
На основании сравнительного статистического анализа определен массив наиболее частотных лексем, которые встречаются в текстах всех авторов; выбраны фразовые контексты частотных слов. Сформирован массив лексических биграмм (лексических пар), в которые входит частотная лексика. Проведен сопоставительный анализ частотных лексических биграмм в творчестве разных авторов, определены индивидуально-авторские биграммы и «синтагматически активная» лексика, характерная для творчества каждого автора. Построены авторские синтагматические профили. В итоге сформирована база для дальнейшей семантической и идиостилевой интерпретации полученных данных.
Создана WEB-страница на сайте Уральского федерального университета для размещения информации о реализации проекта (https://urgi.urfu.ru/formalization/). Участники коллектива сделали три доклада на научных конференциях; по теме проекта опубликованы 4 статьи, в том числе в журнале, индексируемом WoS и включенном в перечень ВАК.
В 2020 г. участниками проекта осуществлен 2-й этап исследования. Его доминантами является лексико-семантический анализ материала, семантическая разметка корпуса индивидуально-авторских биграмм, статистическая обработка корпуса и, наконец, обобщение контекстных семантических отношений в творчестве Л. Н. Толстого, Ф. М. Достоевского, И. С. Тургенева, А. П. Чехова, И. А. Гончарова.
Создан и семантически размечен корпус контекстов с индивидуально-авторскими биграммами (около 8,5 тыс. фразовых контекстов). К каждой лексической биграмме, представленной в определенном фразовом контексте, приписаны 4 маркера – по два к каждому слову, – соотносящие лексемы с сеткой семантических категорий (денотативной сферой и группой). Кроме того, размечены контекстные семантические отношения между словами, составляющими биграммы.
Уточнен синопсис (сетка идеографических категорий – денотативных сфер и групп), послуживший основанием для семантического анализа. Из базовой для разметки идеографической классификации Уральской семантической школы (руководитель – профессор Л. Г. Бабенко) актуальными для работы в рамках данного проекта оказались 369 денотативно-идеографических классов. Кроме того, в перечень добавлены 2 лексические группы: «Персонаж (имя, отчество, фамилия)» и «Географические названия, топонимы».
Получены статистические результаты семантической разметки (распределение идеографических категорий по отдельным фрагментам материала и идиостилям пяти писателей-классиков), которые нуждаются в дальнейшей контекстологической интерпретации.
Осуществлена первичная характеристика функционально-текстовых и идиостилевых особенностей выделенных семантических отношений в творчестве пяти писателей XIX в., которая приводит к реализации III этапа работы над проектом в 2021 г. - сравнительному идиостилевому анализу и функционально-текстовой характеристике индивидуально-авторских профилей лексической сочетаемости.
Актуальная информация о проекте размещается на сайте Уральского федерального университета (https://urgi.urfu.ru/formalization/). Участники коллектива сделали четыре доклада на научных конференциях; по теме проекта опубликовано 7 статей, в том числе в журнале, индексируемом Scopus, и трех журналах, включенных в перечень ВАК.
~654 кБ, *.pdf (Размещен 12.01.2020)
~499 кБ, *.pdf (Размещен 04.02.2022)
~659 кБ, *.pdf (Размещен 04.02.2022)
2019 г.
2020 г.
2021 г.
Принято к печати в 2022 г.
Создано / Изменено: 30 сентября 2019 / 4 февраля 2022
© ФГАОУ ВО «УрФУ имени первого Президента России Б.Н. Ельцина»
Увидели ошибку?
выделите фрагмент и нажмите:
Ctrl + Enter
Дизайн портала: Artsofte
Задайте вопрос о поступлении в институт:
+7 905 800 35 95 (только WhatsApp)
gumanitarii.priem@urfu.ru
Дирекция института:
пр. Ленина, 51, ауд. 237
Телефон: +7 (343) 389 94 12