Формализация индивидуальной лексической сочетаемости как средство описания идиостилей: корпусное сопоставительное исследование классической прозы XIX в.

Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований (проект № 19-012-00104)

Аннотация

Проект посвящен выработке и апробации корпусной модели формализации индивидуальной лексической сочетаемости в художественном тексте. Данная модель построена на основании сопоставительного статистического анализа, единицы которого – лексические биграммы (пары слов, употребляющихся в одном фразовом контексте), характерные для текстов одного писателя в отличие от других авторов. Исследование выполнено на материале классической художественной прозы XIX вв., а именно произведений Л. Н. Толстого, Ф. М. Достоевского, И. С. Тургенева, И. А. Гончарова и А. П. Чехова (около 4 млн текстоформ).

Формализация лексической сочетаемости (лексической синтагматики) является фундаментальной задачей теоретической и прикладной лингвистики. Результаты исследования могут быть использованы в лингвистике текста, авторской лексикографии, корпусной лингвистике, а также в междисциплинарной сфере автоматической обработки текста.

Основные результаты проекта

Корпусное сопоставительное исследование авторской лексической синтагматики в русской классической прозе XIX в. успешно реализовано. Разработана оригинальная модель формализации авторской лексической сочетаемости, проведено масштабное идиостилевое сопоставление произведений А. П. Чехова, Ф. М. Достоевского, И. А. Гончарова, И. С. Тургенева и Л. Н. Толстого.

Создан корпус избранных текстов со снятой межсловной грамматической омонимией (около 4 млн текстоформ). Определен массив наиболее частотных лексем, которые встречаются в текстах всех избранных авторов, а также индивидуально-авторские частотные слова, списки которых однозначно отождествляются со стилями пяти писателей. Получен массив лексических биграмм, в которые входит частотная лексика, а внутри него – перечни индивидуально-авторских биграмм, встречающихся в разных произведениях одного автора и не найденных в произведениях других авторов. Сформированы индивидуально-авторские профили лексической сочетаемости.

На базе идеографического синопсиса (набора денотативных сфер и групп) размечен семантический корпус контекстов с индивидуально-авторскими биграммами, определены контекстные семантические отношения. Получена статистика распределения идеографических категорий в творчестве пяти писателей, которой дана необходимая идиостилевая интерпретация.

Осуществлен масштабный сравнительный идиостилевой анализ индивидуально-авторской лексической сочетаемости; проведенное обобщение отражает выявленные синтагматические особенности творчества каждого автора и их филологическую интерпретацию.

Проанализированы известные концепции авторской синтагматики в текстах изучаемых авторов. На основании сопоставления филологической информации сделаны выводы о достижениях проведенного исследования и его новизне. Разработаны концепция и общая структура будущей монографии, отражающей особенности авторской синтагматики в творчестве изучаемых авторов.

Актуальная информация о проекте размещена на сайте Уральского федерального университета (https://urgi.urfu.ru/formalization/). За время работы по проекту участники коллектива сделали 13 докладов на научных конференциях. По теме проекта подготовлено 18 статей, из них опубликовано 14 (в том числе 4 в журналах, индексируемых Scopus и WoS, 3 – в журналах, включенных в перечень ВАК) и принято в печать 4 (в том числе 1 – в журнале, индексируемом WoS).

Formalization of individual lexical compatibility for idiostylistic profiling: a corpus-based comparative study of the 19th century classical prose

A corpus comparative study of the author's lexical syntagmatics in Russian classical prose of the 19th century has been successfully implemented. The research group developed an original model of formalization of the author's lexical compatibility and carried out a large-scale idiostyle comparison of the works by A. P. Chekhov, F. M. Dostoevsky, I. A. Goncharov, I. S. Turgenev, and L. N. Tolstoy.

A corpus of selected texts with identified inter-word grammatical homonymy (about 4 million text forms) has been formed. An array of the most frequent lexemes found in the texts of all the selected authors, as well as individual author's frequency words, the lists of which are uniquely match the styles of five writers, is determined. An array of lexical bigrams has been obtained, which includes frequency vocabulary, containing lists of individually authored bigrams found in different works of one author and not found in the works of other authors. Individual author profiles of lexical compatibility have been designed.

The semantic corpus of contexts with individual author's bigrams is marked out on the basis of an ideographic synopsis (a set of denotative spheres and groups), their contextual semantic relations are determined. The statistics of the distribution of ideographic categories in the works of five writers has been obtained, their idiostyles have been interpreted.

A large-scale comparative idiostyle analysis of individual author's lexical compatibility is carried out; the generalization reflects the singled-out syntagmatic features of each author's works and their philological interpretation.

The well-known concepts of the author's syntagmatics in the texts of the five authors are analyzed. Based on the comparison of philological information, conclusions are drawn about the achievements of the conducted research and its novelty. The concept and general structure of the future monograph reflecting the features of the author's syntagmatics in the works of the authors studied have been developed.

Up-to-date information about the project is available on the website of the Ural Federal University (https://urgi.urfu.ru/formalization/). During the work on the project, the research group members presented 13 reports at conferences. 18 articles have been prepared on the topic of the project, 14 of them have been published (including 4 in journals indexed by Scopus and WoS, 3 in journals included in the Higher Attestation Commission list) and 4 have been accepted for publication (including 1 in a journal indexed by WoS).

Руководитель проекта

Мухин Михаил Юрьевич, доктор филологических наук, профессор кафедры фундаментальной и прикладной лингвистики и текстоведения.

В 1995 г. после окончания Уральского государственного университета им. А. М. Горького стал работать преподавателем и в 1998 г. защитил кандидатскую диссертацию на тему «Синтагматическое напряжение в романах Владимира Набокова». В 2011 г. состоялась защита докторской диссертации «Лексическая статистика и идиостиль автора: корпусное идеографическое исследование (на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова)».

Читает в УрФУ лекции по различным дисциплинам фундаментальной и прикладной лингвистики («Общая фонетика», «Компьютерная лингвистика», «Корпусная лингвистика», «Автоматическая обработка текста», «Основы прикладной лингвистики», «Статистический анализ текста» и др.).

Является участником лексикографической группы «Русский глагол» и одним из авторов серии известных идеографических словарей. Имеет около 130 опубликованных научных работ. Основные области научных интересов: семантика текста, лексикология, лексикография, компьютерная лингвистика.

Участники проекта

Дюзенли Мария Владимировна – кандидат филологических наук, доцент кафедры русского языка для иностранных учащихся, Уральский федеральный университет им. Б. Н. Ельцина.
Мухин Николай Юрьевич – кандидат филологических наук, доцент кафедры иностранных языков и перевода, Уральский федеральный университет им. Б. Н. Ельцина; доцент кафедры теории и методики обучения лиц с ограниченными возможностями здоровья, Уральский государственный педагогический университет.
Филатова Екатерина Руслановна – магистр фундаментальной и прикладной лингвистики, ведущий инженер кафедры русского языка для иностранных учащихся, Уральский федеральный университет им. Б. Н. Ельцина.

Промежуточный научный отчет о работе по проекту в 2019 году

В 2019 году участниками проекта осуществлен 1-й этап исследования. Разработана оригинальная модель формализации авторской лексической сочетаемости в русской классической прозе XIX в. Модель определяет принципы проведения сопоставительного статистического анализа сочетаемости и его последующей филологической интерпретации. Единицы анализа — лексические биграммы (пары слов, употребляющихся в одном фразовом контексте), которые характерны для текстов одного писателя в отличие от других авторов. Разработанная модель имеет универсальный характер и может быть реализована на материале текстов разных авторов и разных функциональных стилей. Кроме того, она является востребованной для авторской лексикографии, лексической семантики и решения задач автоматической обработки текста.

Сформирован корпус избранных текстов Л. Н. Толстого, Ф. М. Достоевского, И. С. Тургенева, А. П. Чехова. Для большей репрезентативности в корпус включены также романы И. А. Гончарова. Тексты приведены к единому формату, нормализованы; проведена общая структуризация и снятие межсловной грамматической омонимии; осуществлена значительная лингвистическая коррекция результатов автоматического морфологического анализа.

На основании сравнительного статистического анализа определен массив наиболее частотных лексем, которые встречаются в текстах всех авторов; выбраны фразовые контексты частотных слов. Сформирован массив лексических биграмм (лексических пар), в которые входит частотная лексика. Проведен сопоставительный анализ частотных лексических биграмм в творчестве разных авторов, определены индивидуально-авторские биграммы и «синтагматически активная» лексика, характерная для творчества каждого автора. Построены авторские синтагматические профили. В итоге сформирована база для дальнейшей семантической и идиостилевой интерпретации полученных данных.

Создана WEB-страница на сайте Уральского федерального университета для размещения информации о реализации проекта (https://urgi.urfu.ru/formalization/). Участники коллектива сделали три доклада на научных конференциях; по теме проекта опубликованы 4 статьи, в том числе в журнале, индексируемом WoS и включенном в перечень ВАК.

Промежуточный научный отчет о работе по проекту в 2020 году

В 2020 г. участниками проекта осуществлен 2-й этап исследования. Его доминантами является лексико-семантический анализ материала, семантическая разметка корпуса индивидуально-авторских биграмм, статистическая обработка корпуса и, наконец, обобщение контекстных семантических отношений в творчестве Л. Н. Толстого, Ф. М. Достоевского, И. С. Тургенева, А. П. Чехова, И. А. Гончарова.

Создан и семантически размечен корпус контекстов с индивидуально-авторскими биграммами (около 8,5 тыс. фразовых контекстов). К каждой лексической биграмме, представленной в определенном фразовом контексте, приписаны 4 маркера – по два к каждому слову, – соотносящие лексемы с сеткой семантических категорий (денотативной сферой и группой). Кроме того, размечены контекстные семантические отношения между словами, составляющими биграммы.

Уточнен синопсис (сетка идеографических категорий – денотативных сфер и групп), послуживший основанием для семантического анализа. Из базовой для разметки идеографической классификации Уральской семантической школы (руководитель – профессор Л. Г. Бабенко) актуальными для работы в рамках данного проекта оказались 369 денотативно-идеографических классов. Кроме того, в перечень добавлены 2 лексические группы: «Персонаж (имя, отчество, фамилия)» и «Географические названия, топонимы».

Получены статистические результаты семантической разметки (распределение идеографических категорий по отдельным фрагментам материала и идиостилям пяти писателей-классиков), которые нуждаются в дальнейшей контекстологической интерпретации.

Осуществлена первичная характеристика функционально-текстовых и идиостилевых особенностей выделенных семантических отношений в творчестве пяти писателей XIX в., которая приводит к реализации III этапа работы над проектом в 2021 г. - сравнительному идиостилевому анализу и функционально-текстовой характеристике индивидуально-авторских профилей лексической сочетаемости.

Актуальная информация о проекте размещается на сайте Уральского федерального университета (https://urgi.urfu.ru/formalization/). Участники коллектива сделали четыре доклада на научных конференциях; по теме проекта опубликовано 7 статей, в том числе в журнале, индексируемом Scopus, и трех журналах, включенных в перечень ВАК.

Результаты работы по проекту в популярном изложении

Результаты проекта

~654 кБ, *.pdf (Размещен 12.01.2020)

Результаты проекта

~499 кБ, *.pdf (Размещен 04.02.2022)

Итоговые результаты проекта

~659 кБ, *.pdf (Размещен 04.02.2022)

СМИ о проекте

ТАСС, Пресс-центр РФФИ:

Пресс-служба УрФУ: https://urfu.ru/ru/news/26222/

Pro-Books.ru – отраслевой портал о книжном бизнесе и российском книжном рынке: http://pro-books.ru/news/3/20676

Публикации

2019 г.

Мухин М. Ю. Индивидуальная лексическая сочетаемость и ее корпусная формализация // Язык, культура, ментальность: проблемы и перспективы филологических исследований. Курск, 2019. С. 310-317.
Дюзенли М. В., Мухин М. Ю. Филологическое наблюдение и его статистическое обоснование (о «музыкальности» стиля И. С. Тургенева) // Теоретическая семантика и идеографическая лексикография: Словарь. Дискурс. Корпус. Екатеринбург, 2019. С. 83-91.
Мухин М. Ю. Лексическая статистика и стиль авторов классической прозы XIX в. // Теоретическая семантика и идеографическая лексикография: Словарь. Дискурс. Корпус. Екатеринбург, 2019. С. 119-126.
Мухин М. Ю., Мухин Н. Ю. Авторский тезаурус и сочетаемость слов: лексико-статистические модели индивидуального стиля // Филологический класс. 2019. № 4 (58). С. 8-15.

2020 г.

Мухин М. Ю., Мухин Н. Ю. Корпусная методология в синтагматическом исследовании прозы XIX в. // Когнитивные исследования языка. Вып. № 2 (41): Когнитивно-дискурсивная парадигма в лингвистике и смежных науках: современные проблемы и методология исследования. М.; Тамбов; Екатеринбург, 2020. С.850-853.
Дюзенли М. В. Особенности авторской лексической сочетаемости в романах И. С. Тургенева на примере выражения семантической категории фазовости // Вестник ЮУрГУ. Серия «Лингвистика». 2020. Т. 17, № 4. С. 35-41. DOI: 10.14529/ling200406.
Mukhin M. Yu, Filatova E. R. Psychological Traits of Author's Style of Writing: Ways to Find New Meanings // Proceedings of Science School: 2nd International Neuropsychological Summer School named after A. R. Luria “The World After the Pandemic: Challenges and Prospects for Neuroscience”. Ekaterinburg : Ural Univ. Press, 2020. Pp. 59-62.
Мухин М. Ю. Статистические методы в филологии и авторская сочетаемость слов // Стратегические ориентиры современного образования. Екатеринбург : Уральский государственный педагогический университет, 2020. Часть 2. С. 91-93. DOI: 10.26170/Kso-2020-117.
Mukhin M. Yu., Mukhin N. Yu. Idiostyle characteristics of lexical compatibility in the 19th-century prose: Ural stylometric project. J. Sib. Fed. Univ. Humanit. Soc. Sci., 13(12). Pp. 2027-2034. DOI: 10.17516/1997-1370-0701.
Мухин М. Ю., Горчакова И. А. Авторская сочетаемость слов в романах И.А. Гончарова: сопоставительная стилометрия // Вестник Самарского университета. История, педагогика, филология. 2020. Т. 26. № 4. С. 95-100.

2021 г.

Мухин М. Ю., Мухин Н. Ю. Авторская лексическая синтагматика в системном представлении // Филологический класс. 2021. Т. 26, № 2. С. 103-110. DOI: 10.51762/1FK-2021-26-02-08.
Мухин М. Ю. Психолингвистические аспекты лексико-статистического анализа текста // Cognitive Neuroscience — 2020. Екатеринбург : Изд-во Урал. ун-та, 2021. С 37-42.
Мухин М. Ю., Филатова Е. Р. Психолингвистические «частности» лексической сочетаемости в русской прозе XIX века // Уральский филологический вестник / Уральский государственный педагогический университет. Екатеринбург, 2021. № 2(30). С. 49-56.
Мухин М. Ю., Мухин Н. Ю. «Шаги» персонажей в прозе Л. Н. Толстого и его современников: сопоставительное статистическое исследование авторской лексической сочетаемости // Cuadernos de Rusística Española. № 17 (2021), Pp. 67-76.

Принято к печати в 2022 г.

Мухин М. Ю., Мухин Н. Ю. Авторская «работа со словом» с точки зрения статистики: новый взгляд на классическую литературу XIX в. // Динамика языковых и культурных процессов в современной России. Мат-лы VII Конгресса РОПРЯЛ (6-9 октября 2021 г., Екатеринбург).
Дюзенли М. В. «Промолвить» – это по-тургеневски? Динамика языковых и культурных процессов в современной России. Мат-лы VII Конгресса РОПРЯЛ (6-9 октября 2021 г., Екатеринбург).
Мухин М. Ю., Мухин Н. Ю. Походка персонажей в прозе XIX в.: лексическая статистика и психолингвистика // Cognitive Neuroscience – 2021. Мат-лы IV Международного форума по нейронаукам (2-3 декабря 2021 г., Екатеринбург).
Дюзенли М. В. Стандартные операторы ввода прямой речи как маркеры идиостиля писателя // Известия Уральского федерального университета. Серия 2: Гуманитарные науки.

Создано / Изменено: 30 сентября 2019 / 4 февраля 2022