In 2002, I graduated from RSUH (Moscow). I mostly study spoken language and multimodal communication. My PhD (2009) dealt with how syntax and prosody interact in local discourse structure. I teach Discourse analysis, Discourse documentation, and Spoken language analysis.
Коротаев Н. А. (2024). «А с улицы доносится сирен многоголосица»: как часто и почему мы говорим одновременно? // Состав науки: Сборник статей к юбилею Веры Исааковны Подлесской / Ред. Н. А. Коротаев, Н. Р. Сумбатова. М.: Буки-Веди. – 311-338.
В статье на материале корпуса «Рассказы и разговоры о грушах» с двух точек зрения рассматривается... more В статье на материале корпуса «Рассказы и разговоры о грушах» с двух точек зрения рассматривается явление диалогического наложения, т. е. одновременного говорения. С одной стороны, предлагаются методы количественной оценки того, насколько частотно это явление в неподготовленном устном разговоре. Показано, что c хотя бы частичным наложением произносятся около 60% всех элементарных дискурсивных единиц отдельных говорящих. С другой стороны, предварительно анализируются дискурсивные контексты, в которых возникают наложения; обсуждается характер кооперации vs. конкуренции участников диалога в этих контекстах.
Коротаев Н. А. (2023). Есть ли элементарные дискурсивные единицы в разметках неподготовленных аннотаторов? // Язык как он есть: Сборник статей к 60-летию Андрея Александровича Кибрика / Ред.-сост. Т. И. Давидюк, И. И. Исаев, Ю. В. Мазурова, С. Г. Татевосов, О. В. Федорова. М.: Буки-Веди. – 29-36.
В статье рассматривается вопрос об интуитивных основаниях понятия элементарной дискурсивной едини... more В статье рассматривается вопрос об интуитивных основаниях понятия элементарной дискурсивной единицы в неподготовленной устной речи. На материале студенческих разметок одного из рассказов корпуса «Истории о подарках и катании на лыжах» показано, что сегментация речевого потока относится к явлениям, имеющим прочный психолингвистический фундамент. Рассматривается степень согласия неподготовленных аннотаторов при выделении элементарных дискурсивных единиц; соотношение их разметок с аннотацией, выполненной тренированными экспертами; делается попытка восстановить формальные критерии, на которые опирались неподготовленные аннотаторы.
Коротаев Н. А., Литвиненко А. О., Подлесская В. И. (2023). «Вам и не снилось!»: прошлое, настоящее и будущее «Рассказов о сновидениях» // Язык как он есть: Сборник статей к 60-летию Андрея Александровича Кибрика / Ред.-сост. Т. И. Давидюк, И. И. Исаев, Ю. В. Мазурова, С. Г. Татевосов, О. В. Федор...
В статье кратко рассказывается о серии проектов, посвященных анализу устной речи. Отправной точко... more В статье кратко рассказывается о серии проектов, посвященных анализу устной речи. Отправной точкой всех этих проектов стала работа над корпусом «Рассказы о сновидениях», руководителем которой был Андрей Александрович Кибрик.
Коротаев Н. А. (2023). Мультиканальное взаимодействие при совместном построении синтаксических конструкций в диалоге // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (2023). Вып. 22. – 254-266.
The talk provides a multichannel description of how interlocutors co-construct utterances in conv... more The talk provides a multichannel description of how interlocutors co-construct utterances in conversation. Using data from the “Russian Pears Chats & Stories”, I propose for a tripartite sequential scheme of collaborative constructions. When the scheme is fully realized, its first step not only includes the initial component of the construction, but also presupposes that the first participant makes a request for a co-operative action; the final component of the construction is provided by the second participant during the second step; while the third step consists of the first participant’s reaction. On each step, the participants combine vocal and non-vocal resources to achieve their goals. In some cases, non-vocal phenomena provide an essential clue to what is actually happening during co-construction, including whether the participants act in a truly co-operative manner. I distinguish between three types of communicative patterns that may take place during co-construction: “Requested ooperation”, “Unplanned Cooperation”, and “Non-realized Interaction”. The data suggest that these types can be influenced by the way the knowledge of the discussed events is distributed among the participants.
Коротаев Н. А. (2021). Поиск в мультиканальном корпусе: содержательные задачи и техническая реализация // Труды международной конференции «Корпусная лингвистика-2021». СПб.: Скифия-Принт. – 263-271., 2021
В докладе представлены основные возможности поисковой системы по корпусу «Рассказы и разговоры о ... more В докладе представлены основные возможности поисковой системы по корпусу «Рассказы и разговоры о грушах», доступной на сайте Корпус состоит из аудио- и видеозаписей однотипных коммуникативных сессий, снабженных разметкой вокального и кинетического поведения. Обсуждаются конкретные исследовательские вопросы, решение которых может быть облегчено благодаря наличию разрабатываемой поисковой системы.
Коротаев Н. А. (2021). Темп и тональный регистр в конструкциях со вставками в неподготовленном устном дискурсе // Анализ разговорной русской речи (АР3-2021): Труды девятого междисциплинарного семинара. СПб.: Скифия-принт. – 54-59., 2021
In this talk, I analyze patterns of articulation rate and tonal register of parenthetical constru... more In this talk, I analyze patterns of articulation rate and tonal register of parenthetical constructions found in two prosodically annotated corpora of Russian spoken discourse. I define a parenthetical construction as a sentence-level phenomenon that consists of three prosodically autonomous elements — the left context, the parenthetical unit, and the right context. Prototypically, parenthetical units are anchored to their left contexts and are pronounced with a falling or level pitch accent. Overall, 114 relevant examples were included in the study. They were examined for three parameters: articulation rate, mean pitch value, and interdecile pitch range. Praat software was used for measurements; values obtained for parenthetical units were independently compared to those of left and right contexts. All three parameters showed statistical significance. Parenthetical units tend to have higher articulation rate, lower mean pitch value and more narrow pitch range than their contexts. However, these tendencies vary in effect size, as pitch range in parenthetical units changes more dramatically than two other measures. Given that, I tentatively claim that narrowing the pitch range can be regarded as the key prosodic means that speakers use to distinguish parentheticals from the main line in spontaneous discourse.
Коротаев Н. А. (2021). Конструкции с дискурсивными вставками в устной русской речи: базовые типы и просодические свойства // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (Москва, 16 – 19 июня 2021). Вып. 20(27). - 413-424, 2021
The paper discusses the notion of parentheticals in Russian spoken discourse. Using data from two... more The paper discusses the notion of parentheticals in Russian spoken discourse. Using data from two prosodically annotated corpora-"Stories about presents and skiing" and "Russian Pear Chats & Stories"-I advocate for a discourse-oriented approach to parenthetical constructions. I define a parenthetical construction as consisting of three elements: the left context, the parenthetical unit, and the right context. Each element constitutes a separate discourse unit and is thus prosodically autonomous. I rely on the notion of projection [Auer 2005] to account for the discourse relationships between these three components. When the speaker pronounces the left context, she projects a continuation that is to be realized in the right context, while the parenthetical unit provides a digressive discourse step. Typically (around 50% in my data), parentheticals are anchored to their left contexts and are pronounced with a falling or level pitch accent. Noted deviations from this prototype include free parentheticals, parenthetical uses of vot, and parentheticals pronounced with a rising pitch accent. Furthermore, I explore two prosodic features frequently associated with parentheticals, namely, increased articulation rate and pitch range narrowing. I show that, while both these tendencies are statistically significant, the latter has a larger effect size than the former.
Korotaev, Nikolay, Dobrov, Grigory, & Khitrov, Andrej. (2021). RUPEX Search: Online tool for analyzing multichannel discourse // B. Velichkovsky, P. Balaban, V. Ushakov (Eds.) Advances in Cognitive Research, Artificial Intelligence, and Neuroinformatics. Springer-Nature. – 385-394., 2021
The paper presents an online search system built for the “Russian Pear Chats & Stories” corpus (R... more The paper presents an online search system built for the “Russian Pear Chats & Stories” corpus (RUPEX). RUPEX is a collection of communication sessions used for studying multichannel discourse. It aims at discovering how interlocutors use verbal, prosodic, oculomotor, manual gesticulation and other channels as they take part in natural monologic and dialogic communication. The sessions were recorded with microphones, video cameras, and eye trackers, and an integrated multichannel annotation scheme was implemented to them. The search system operates on these data and provides an intuitive graphic user interface that offers the following options: creating simple and complex queries, viewing search results in a multi-layered annotation format associated with video fragments, specifying search domain. To illustrate this functionality, we discuss search queries relevant to a specific multichannel research, that of dialogic elicitations.
Kibrik, Andrej A., Dobrov, Grigory B., & Korotaev, Nikolay A. (2021). Modelling natural communication and a multichannel resource: The deceleration effect // V. Solovyev, N. Loukachevitch, O. Lyashevskaya (Eds.) Proceedings of the Linguistic Forum 2020: Language and Artificial Intelligence., 2021
Many AI systems imitate human communication. Specific solutions are often based on implicit theor... more Many AI systems imitate human communication. Specific solutions are often based on implicit theories about communication. We propose that, in order to improve performance, it is useful to consult linguistic resources registering actual communicative behavior. The study is based on a multichannel resource named RUPEX. A variety of parameters of communicative behaviors are annotated in RUPEX and can be used to improve AI systems, such as conversational agents. We focus on the deceleration effect, characteristic of elementary chunks of human speech. Specific data on deceleration can be derived from the RUPEX annotation. An assessment of deceleration in the speech produced by conversational agents is presented. Features found in linguistic annotation may provide the algorithm with certain hints on what to attend to. Annotated linguistic resources provide more direct information on what to imitate, and taking them into account may lead to better pattern recognition and therefore better speech production. RUPEX is an example of a rich resource that can help to synthesize more natural behavior.
Kibrik, Andrej A., Korotaev, Nikolay A., & Podlesskaya, Vera I. (2020). The Moscow approach to local discourse structure: An application to English. In Shlomo Izre’el, Heliana Melo, Alessandro Panunzi, Tommaso Raso (eds.), In Search of Basic Units of Spoken Language. John Benjamins. – 368-382. , 2020
This chapter is an exploratory study, in which we apply an approach to local discourse structure ... more This chapter is an exploratory study, in which we apply an approach to local discourse structure and prosody, developed for spoken Russian, to English talk. A key conceptual element of our approach is the notion of elementary discourse unit (EDU). EDUs are identified on the basis of prosodic criteria and demonstrate substantial correspondence to clauses. A range of structural, prosodic and discourse-semantic phenomena are reviewed, including pausing, discourse accent, phase, and spoken sentence. Analysis begins with those phenomena that characteristic of both monologic and multi-party discourse, and proceeds with those features that are only found in interactional exchange. The Russian-oriented system of discourse transcription and analysis turns out generally applicable to the English evidence.
Kibrik, Andrej A., Korotaev, Nikolay A., & Podlesskaya, Vera I. (2020). Russian spoken discourse: Local structure and prosody. In Shlomo Izre’el, Heliana Melo, Alessandro Panunzi, Tommaso Raso (eds.), In Search of Basic Units of Spoken Language. John Benjamins. – 36-76., 2020
Previously we developed an approach to spoken Russian monologic discourse, now extending that, lo... more Previously we developed an approach to spoken Russian monologic discourse, now extending that, looking primarily at interactional multi-party discourse, contextualizing speech phenomena as multichannel (multimodal) communication. The evidence analyzed is the Russian Pear Chats and Stories corpus, see Scores transcripts are introduced to annotate the interlocutors’ shared time line, including periods of silence. Elementary discourse unit (EDU) is posited as a central building block of local discourse structure. Canonical EDUs coincide with clauses; additionally, subclausal, superclausal and paraclausal EDUs are found. Prosodic phenomena are considered; EDUs and groups of EDUs are accounted through a discourse-semantic category of phase. Disfluencies and other structural phenomena are systematically treated. Conventions of discourse capture both prosodic and functional aspects of discourse.
Korotaev, Nikolay, Podlesskaya, Vera, Smirnova, Katerina, & Fedorova, Olga. (2020). Disfluencies in Russian spoken monologues: A distributional analysis // Компьютерная лингвистика и интеллектуальные технологии. Вып. 19(26). – 439-451, 2020
The paper addresses the overall distribution of speech disfluencies in Russian spoken monologic d... more The paper addresses the overall distribution of speech disfluencies in Russian spoken monologic discourse: basing on corpus data, we investigate qualitatively and quantitatively how disfluencies of different types group (or do not group) with each other and how isolated disfluencies and their sequences are sandwiched with periods of fluent speech in the course of speech production. Self-repairs, filled and silent pauses, and instances of hesitation lengthening were annotated in a subcorpus of the “Russian Pears Chats and Stories”. A distribution-oriented typology of disfluencies was proposed that distinguishes between isolated disfluencies, disfluency clusters, and quasi-clusters. We claim that disfluency tokens tend to cluster, as isolated occurrences are significantly less frequent in our data than it could have been expected basing on the relative frequency of tokens. This finding contradicts previous studies that treated disfluency clusters as a more marginal phenomenon and emphasizes the importance of a distributional, rather than merely structural, approach to annotating disfluencies. Furthermore, individual types of disfluency tokens demonstrate significantly different distributional patterns. Compared to other types, self-repairs occur more often in isolation, while words with hesitation lengthening appear predominantly in clusters, and filled pauses most often group with silent pauses to form quasi-clusters.
Smirnova, Katerina, Korotaev, Nikolay, Panikratova, Yana, Lebedeva, Irina, Pechenkova, Ekaterina, & Fedorova, Olga. (2020). Using the RUPEX multichannel corpus in a pilot fMRI study on speech disfluencies. In: LREC-2020, p. 195-203, 2020
In this paper we provide the pilot neuroimaging study of the possible neural correlates of speech... more In this paper we provide the pilot neuroimaging study of the possible neural correlates of speech disfluencies perception, using a combination of the corpus and functional magnetic-resonance (fMRI) methods. Special technical procedure of selecting stimulus material from Russian multichannel corpus RUPEX allowed to create fragments in terms of requirements for the fMRI BOLD temporal resolution. They contain isolated speech disfluencies and their clusters. Also we used the referential task for participants fMRI scanning. As a result it was demonstrated that annotated multichannel corpora like RUPEX can be important resource for experimental research in interdisciplinary field.
Коротаев Н. А. (2019). Паузы хезитации в рассказе и в разговоре: сопоставительный количественный анализ // Труды международной конференции «Корпусная лингвистика-2019». СПб: Изд-во С.-Петерб. ун-та. – 48-54., 2019
На материале корпуса «Рассказы и разговоры о грушах» анализируется использование говорящими запол... more На материале корпуса «Рассказы и разговоры о грушах» анализируется использование говорящими заполненных пауз в двух коммуникативных режимах. Рассмотрено речевое поведение восьми участников, каждый из которых на различных этапах записей выступает и как единоличный говорящий, и как один из собеседников в разговоре. Показано, что у всех говорящих при переходе от монологического режима к диалогическому резко понижается доля заполненных пауз относительно общего времени говорения и относительно суммарного количества произнесенных слов.
Коротаев Н. А., Добров Г. Б., Хитров А. Н. (2019). Поиск в мультиканальном корпусе: разработка онлайновой системы // По материалам ежегодной Международной конференции "Диалог" (Москва, 29 мая - 1 июня 2019). Вып. 18. Доп. том. - 72-80., 2019
In this talk, we present preliminary results of developing an online search engine for the multic... more In this talk, we present preliminary results of developing an online search engine for the multichannel corpus “Russian Pear Chats and Stories” ( The engine operates on about 200 000 ELAN annotations that register vocal, oculomotor, and manual behavior of the participants of three communication sessions (approximately one hour long). On the server side, we rely on the internal ELAN search engine that we extend to implement additional features. We use the Java Servlet technology to transform user-generated queries into ELAN classes. On the client side, we provide a new friendly graphic user interface. It is implemented as a single page JavaScript application based on the Model-view-viewmodel pattern. Users can define a search domain, select units of multichannel behavior and specify their properties, create simple and complex queries, and play relevant video fragments in the Results section.
Подлесская В. И., Коротаев Н. А., Мазурина С. И. (2019). Самоисправления говорящего в русском монологическом и диалогическом дискурсе: опыт корпусного исследования // Компьютерная лингвистика и интеллектуальные технологии. Вып. 18(25). - 508-522., 2019
Self-initiated and other-initiated self-repairs (N=632) were investigated in a subcorpus (1 h 14 ... more Self-initiated and other-initiated self-repairs (N=632) were investigated in a subcorpus (1 h 14 min) extracted from the multichannel corpus “Russian Pear Chats and Stories”. The subcorpus consists of three communication sessions where participants retell and discuss the “Pear stories” film, hence each session contains both monologue and dialogue discourse parts. The overall rates of self-repairs and the distribution of their particular types were compared in monologues and dialogues. The results show that while, overall, speakers tend to repair more often in conversational than in retelling parts, particular types of repairs are distributed differently, e.g. (a) repetitions and restarts have higher rates in conversational parts, while corrections appear more often in retellings; (b) in retellings, reparandum and reparans appear more often within the same discourse unit, while in conversational parts, they tend to appear in separate discourse units.
Кибрик А. А., Коротаев Н. А., Федорова О. В., Евдокимова А. А. (2019). Единая мультиканальная аннотация как инструмент анализа естественного дискурса // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог". Вып. 18(25). - 265-280., 2019
This paper contributes to the research field of multichannel discourse analysis. Multichannel dis... more This paper contributes to the research field of multichannel discourse analysis. Multichannel discourse analysis explores numerous channels involved in natural communication, such as verbal structure, prosody, manual gesticulation, head movements, eye gaze, torso postures, etc., and treats them as parts of an integrated process. For the purposes of investigating the way participants interact with one another and the way different communication channel correlate, we introduce the notion of an integrated multichannel annotation created with ELAN software. In particular, we consider three topics: (1) temporal alignment between participants’ speech and manual gesticulation; (2) distribution of participants’ visual attention as they watch their interlocutors talking and gesticulating manually; (3) interrelationship between participants’ torso postures and head movements.
Коротаев Н. А., Добров Г. Б., Хитров А. Н. (2018). Опыт разработки онлайновой поисковой системы по мультиканальному корпусу // Российский журнал когнитивной науки (5), № 4. – 15-27., 2018
The paper presents preliminary results of developing an online search engine for a multichannel c... more The paper presents preliminary results of developing an online search engine for a multichannel corpus. A multichannel corpus is a collection of media files and annotations of the communication events registered in these files. Creating a user-friendly search engine for such corpora provides an important tool for analyzing the natural discourse. Specifically, it may shed light on how different communication channels — speech, prosody, gesticulation, eye gaze, etc. — interact during discourse production and comprehension. To empower our online search service, we rely on a system of multichannel annotation designed for the “Russian Pear Chats and Stories” corpus ( Three sessions, approximately one hour in duration combined, have been annotated for vocal, oculomotor, and manual gesturing channels. The annotations are stored in the .eaf format that is used in ELAN software ( This allowed us to implement the internal ELAN search engine on the server side. Using the Java Servlet technology, we transform user-generated queries into ELAN classes and thus delegate the query execution. Additionally, we patched the source code and extended the ELAN search engine to meet some specific requirements. On the client side, we are developing the user interface from scratch. The beta version is available at This is a single page JavaScript application. Users can define a search domain, select units of multichannel behavior and specify their properties, and create simple and complex queries with the help of a friendly GUI. In the Results tab, simplified transcripts are combined with relevant video fragments. We demonstrate these basic features using queries relevant to the analysis of elicitation in dialogues.
Коротаев Н. А. (2018). Интонационная структура устного рассказа в контексте незавершенности // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (Москва, 30 мая - 2 июня 2018). Вып. 17(24). - 337-350., 2018
Topic – focus articulation in Russian has been mainly studied against isolated utterances. In a c... more Topic – focus articulation in Russian has been mainly studied against isolated utterances. In a categorical sentence, this communicative opposition is reflected in the linear-accentual structure. For a simple declarative sentence, that would normally mean that the topic (theme) comes first and has a rising phrasal accent, while the focus (rheme) completes the utterance and is pronounced with a falling accent. At the same time, these formal features do more than just differentiate between topics and foci; they also mark the discourse-semantic category of phase. In syntactically simple utterances, topics tend to correlate with anticipated continuation, hence non-final phase; foci are usually phase-final. As I intend to show in this paper, the non-final phase provides a variety of contexts that challenge the topic – focus distinction. The study is based on the “Stories about presents and skiing” — a collection of prosodically annotated spoken narratives. In Section 1, I concentrate on issues within a simple clause, where non-final verbal elements often have a fuzzy communicative interpretation. In Section 2, I analyze complex syntactic structures. The data show that non-final clauses may demonstrate both thematic and rhematic properties with regard to their intonation patterns, internal structure and discourse function. Hence, one can claim that some non-final clauses are topics, while others are foci. However, a majority of non-final clauses in the analyzed corpus may not be unambiguously attributed to either of these categories. Section 3 provides a pilot study of complex intonation patterns. Only phase distinction being considered, utterances with more than one accentual phrase may follow either (i) the basic adaptation strategy (comprising of a non-final rising accent and a final falling accent), or, more often, (ii) a complicated strategy: (a) multiple parallel adaption, (b) consecutive adaptation, or (c) parenthetical strategy.
Коротаев Н. А. (2016). Союз то что в устной речи // Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН. Т. XII. Ч. 1. Исследования по типологии и грамматике. СПб.: Наука. - 101-105., 2016
Рассматриваются примеры сложноподчиненных объектных конструкций в устной русской речи, в которых ... more Рассматриваются примеры сложноподчиненных объектных конструкций в устной русской речи, в которых формальным средством выражения межклаузальных отношений выступает сочетание "то что". Высказывается гипотеза, что данное сочетание функционирует как единый союзный комплекс, не сводимый к соединению опорного местоимения с союзом "что". Этот комплекс характеризуется интонационной нерасчлененностью; кроме того, круг использования нового союза оказывается шире, чем у расчлененного варианта "то / что". Анализ синтаксических контекстов, в которых употребляется "то что" в устной речи, позволяет предположить, что это сочетание захватывает ряд стандартных употреблений союза "что".
Коротаев Н. А. (2024). «А с улицы доносится сирен многоголосица»: как часто и почему мы говорим одновременно? // Состав науки: Сборник статей к юбилею Веры Исааковны Подлесской / Ред. Н. А. Коротаев, Н. Р. Сумбатова. М.: Буки-Веди. – 311-338.
В статье на материале корпуса «Рассказы и разговоры о грушах» с двух точек зрения рассматривается... more В статье на материале корпуса «Рассказы и разговоры о грушах» с двух точек зрения рассматривается явление диалогического наложения, т. е. одновременного говорения. С одной стороны, предлагаются методы количественной оценки того, насколько частотно это явление в неподготовленном устном разговоре. Показано, что c хотя бы частичным наложением произносятся около 60% всех элементарных дискурсивных единиц отдельных говорящих. С другой стороны, предварительно анализируются дискурсивные контексты, в которых возникают наложения; обсуждается характер кооперации vs. конкуренции участников диалога в этих контекстах.
Коротаев Н. А. (2023). Есть ли элементарные дискурсивные единицы в разметках неподготовленных аннотаторов? // Язык как он есть: Сборник статей к 60-летию Андрея Александровича Кибрика / Ред.-сост. Т. И. Давидюк, И. И. Исаев, Ю. В. Мазурова, С. Г. Татевосов, О. В. Федорова. М.: Буки-Веди. – 29-36.
В статье рассматривается вопрос об интуитивных основаниях понятия элементарной дискурсивной едини... more В статье рассматривается вопрос об интуитивных основаниях понятия элементарной дискурсивной единицы в неподготовленной устной речи. На материале студенческих разметок одного из рассказов корпуса «Истории о подарках и катании на лыжах» показано, что сегментация речевого потока относится к явлениям, имеющим прочный психолингвистический фундамент. Рассматривается степень согласия неподготовленных аннотаторов при выделении элементарных дискурсивных единиц; соотношение их разметок с аннотацией, выполненной тренированными экспертами; делается попытка восстановить формальные критерии, на которые опирались неподготовленные аннотаторы.
Коротаев Н. А., Литвиненко А. О., Подлесская В. И. (2023). «Вам и не снилось!»: прошлое, настоящее и будущее «Рассказов о сновидениях» // Язык как он есть: Сборник статей к 60-летию Андрея Александровича Кибрика / Ред.-сост. Т. И. Давидюк, И. И. Исаев, Ю. В. Мазурова, С. Г. Татевосов, О. В. Федор...
В статье кратко рассказывается о серии проектов, посвященных анализу устной речи. Отправной точко... more В статье кратко рассказывается о серии проектов, посвященных анализу устной речи. Отправной точкой всех этих проектов стала работа над корпусом «Рассказы о сновидениях», руководителем которой был Андрей Александрович Кибрик.
Коротаев Н. А. (2023). Мультиканальное взаимодействие при совместном построении синтаксических конструкций в диалоге // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (2023). Вып. 22. – 254-266.
The talk provides a multichannel description of how interlocutors co-construct utterances in conv... more The talk provides a multichannel description of how interlocutors co-construct utterances in conversation. Using data from the “Russian Pears Chats & Stories”, I propose for a tripartite sequential scheme of collaborative constructions. When the scheme is fully realized, its first step not only includes the initial component of the construction, but also presupposes that the first participant makes a request for a co-operative action; the final component of the construction is provided by the second participant during the second step; while the third step consists of the first participant’s reaction. On each step, the participants combine vocal and non-vocal resources to achieve their goals. In some cases, non-vocal phenomena provide an essential clue to what is actually happening during co-construction, including whether the participants act in a truly co-operative manner. I distinguish between three types of communicative patterns that may take place during co-construction: “Requested ooperation”, “Unplanned Cooperation”, and “Non-realized Interaction”. The data suggest that these types can be influenced by the way the knowledge of the discussed events is distributed among the participants.
Коротаев Н. А. (2021). Поиск в мультиканальном корпусе: содержательные задачи и техническая реализация // Труды международной конференции «Корпусная лингвистика-2021». СПб.: Скифия-Принт. – 263-271., 2021
В докладе представлены основные возможности поисковой системы по корпусу «Рассказы и разговоры о ... more В докладе представлены основные возможности поисковой системы по корпусу «Рассказы и разговоры о грушах», доступной на сайте Корпус состоит из аудио- и видеозаписей однотипных коммуникативных сессий, снабженных разметкой вокального и кинетического поведения. Обсуждаются конкретные исследовательские вопросы, решение которых может быть облегчено благодаря наличию разрабатываемой поисковой системы.
Коротаев Н. А. (2021). Темп и тональный регистр в конструкциях со вставками в неподготовленном устном дискурсе // Анализ разговорной русской речи (АР3-2021): Труды девятого междисциплинарного семинара. СПб.: Скифия-принт. – 54-59., 2021
In this talk, I analyze patterns of articulation rate and tonal register of parenthetical constru... more In this talk, I analyze patterns of articulation rate and tonal register of parenthetical constructions found in two prosodically annotated corpora of Russian spoken discourse. I define a parenthetical construction as a sentence-level phenomenon that consists of three prosodically autonomous elements — the left context, the parenthetical unit, and the right context. Prototypically, parenthetical units are anchored to their left contexts and are pronounced with a falling or level pitch accent. Overall, 114 relevant examples were included in the study. They were examined for three parameters: articulation rate, mean pitch value, and interdecile pitch range. Praat software was used for measurements; values obtained for parenthetical units were independently compared to those of left and right contexts. All three parameters showed statistical significance. Parenthetical units tend to have higher articulation rate, lower mean pitch value and more narrow pitch range than their contexts. However, these tendencies vary in effect size, as pitch range in parenthetical units changes more dramatically than two other measures. Given that, I tentatively claim that narrowing the pitch range can be regarded as the key prosodic means that speakers use to distinguish parentheticals from the main line in spontaneous discourse.
Коротаев Н. А. (2021). Конструкции с дискурсивными вставками в устной русской речи: базовые типы и просодические свойства // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (Москва, 16 – 19 июня 2021). Вып. 20(27). - 413-424, 2021
The paper discusses the notion of parentheticals in Russian spoken discourse. Using data from two... more The paper discusses the notion of parentheticals in Russian spoken discourse. Using data from two prosodically annotated corpora-"Stories about presents and skiing" and "Russian Pear Chats & Stories"-I advocate for a discourse-oriented approach to parenthetical constructions. I define a parenthetical construction as consisting of three elements: the left context, the parenthetical unit, and the right context. Each element constitutes a separate discourse unit and is thus prosodically autonomous. I rely on the notion of projection [Auer 2005] to account for the discourse relationships between these three components. When the speaker pronounces the left context, she projects a continuation that is to be realized in the right context, while the parenthetical unit provides a digressive discourse step. Typically (around 50% in my data), parentheticals are anchored to their left contexts and are pronounced with a falling or level pitch accent. Noted deviations from this prototype include free parentheticals, parenthetical uses of vot, and parentheticals pronounced with a rising pitch accent. Furthermore, I explore two prosodic features frequently associated with parentheticals, namely, increased articulation rate and pitch range narrowing. I show that, while both these tendencies are statistically significant, the latter has a larger effect size than the former.
Korotaev, Nikolay, Dobrov, Grigory, & Khitrov, Andrej. (2021). RUPEX Search: Online tool for analyzing multichannel discourse // B. Velichkovsky, P. Balaban, V. Ushakov (Eds.) Advances in Cognitive Research, Artificial Intelligence, and Neuroinformatics. Springer-Nature. – 385-394., 2021
The paper presents an online search system built for the “Russian Pear Chats & Stories” corpus (R... more The paper presents an online search system built for the “Russian Pear Chats & Stories” corpus (RUPEX). RUPEX is a collection of communication sessions used for studying multichannel discourse. It aims at discovering how interlocutors use verbal, prosodic, oculomotor, manual gesticulation and other channels as they take part in natural monologic and dialogic communication. The sessions were recorded with microphones, video cameras, and eye trackers, and an integrated multichannel annotation scheme was implemented to them. The search system operates on these data and provides an intuitive graphic user interface that offers the following options: creating simple and complex queries, viewing search results in a multi-layered annotation format associated with video fragments, specifying search domain. To illustrate this functionality, we discuss search queries relevant to a specific multichannel research, that of dialogic elicitations.
Kibrik, Andrej A., Dobrov, Grigory B., & Korotaev, Nikolay A. (2021). Modelling natural communication and a multichannel resource: The deceleration effect // V. Solovyev, N. Loukachevitch, O. Lyashevskaya (Eds.) Proceedings of the Linguistic Forum 2020: Language and Artificial Intelligence., 2021
Many AI systems imitate human communication. Specific solutions are often based on implicit theor... more Many AI systems imitate human communication. Specific solutions are often based on implicit theories about communication. We propose that, in order to improve performance, it is useful to consult linguistic resources registering actual communicative behavior. The study is based on a multichannel resource named RUPEX. A variety of parameters of communicative behaviors are annotated in RUPEX and can be used to improve AI systems, such as conversational agents. We focus on the deceleration effect, characteristic of elementary chunks of human speech. Specific data on deceleration can be derived from the RUPEX annotation. An assessment of deceleration in the speech produced by conversational agents is presented. Features found in linguistic annotation may provide the algorithm with certain hints on what to attend to. Annotated linguistic resources provide more direct information on what to imitate, and taking them into account may lead to better pattern recognition and therefore better speech production. RUPEX is an example of a rich resource that can help to synthesize more natural behavior.
Kibrik, Andrej A., Korotaev, Nikolay A., & Podlesskaya, Vera I. (2020). The Moscow approach to local discourse structure: An application to English. In Shlomo Izre’el, Heliana Melo, Alessandro Panunzi, Tommaso Raso (eds.), In Search of Basic Units of Spoken Language. John Benjamins. – 368-382. , 2020
This chapter is an exploratory study, in which we apply an approach to local discourse structure ... more This chapter is an exploratory study, in which we apply an approach to local discourse structure and prosody, developed for spoken Russian, to English talk. A key conceptual element of our approach is the notion of elementary discourse unit (EDU). EDUs are identified on the basis of prosodic criteria and demonstrate substantial correspondence to clauses. A range of structural, prosodic and discourse-semantic phenomena are reviewed, including pausing, discourse accent, phase, and spoken sentence. Analysis begins with those phenomena that characteristic of both monologic and multi-party discourse, and proceeds with those features that are only found in interactional exchange. The Russian-oriented system of discourse transcription and analysis turns out generally applicable to the English evidence.
Kibrik, Andrej A., Korotaev, Nikolay A., & Podlesskaya, Vera I. (2020). Russian spoken discourse: Local structure and prosody. In Shlomo Izre’el, Heliana Melo, Alessandro Panunzi, Tommaso Raso (eds.), In Search of Basic Units of Spoken Language. John Benjamins. – 36-76., 2020
Previously we developed an approach to spoken Russian monologic discourse, now extending that, lo... more Previously we developed an approach to spoken Russian monologic discourse, now extending that, looking primarily at interactional multi-party discourse, contextualizing speech phenomena as multichannel (multimodal) communication. The evidence analyzed is the Russian Pear Chats and Stories corpus, see Scores transcripts are introduced to annotate the interlocutors’ shared time line, including periods of silence. Elementary discourse unit (EDU) is posited as a central building block of local discourse structure. Canonical EDUs coincide with clauses; additionally, subclausal, superclausal and paraclausal EDUs are found. Prosodic phenomena are considered; EDUs and groups of EDUs are accounted through a discourse-semantic category of phase. Disfluencies and other structural phenomena are systematically treated. Conventions of discourse capture both prosodic and functional aspects of discourse.
Korotaev, Nikolay, Podlesskaya, Vera, Smirnova, Katerina, & Fedorova, Olga. (2020). Disfluencies in Russian spoken monologues: A distributional analysis // Компьютерная лингвистика и интеллектуальные технологии. Вып. 19(26). – 439-451, 2020
The paper addresses the overall distribution of speech disfluencies in Russian spoken monologic d... more The paper addresses the overall distribution of speech disfluencies in Russian spoken monologic discourse: basing on corpus data, we investigate qualitatively and quantitatively how disfluencies of different types group (or do not group) with each other and how isolated disfluencies and their sequences are sandwiched with periods of fluent speech in the course of speech production. Self-repairs, filled and silent pauses, and instances of hesitation lengthening were annotated in a subcorpus of the “Russian Pears Chats and Stories”. A distribution-oriented typology of disfluencies was proposed that distinguishes between isolated disfluencies, disfluency clusters, and quasi-clusters. We claim that disfluency tokens tend to cluster, as isolated occurrences are significantly less frequent in our data than it could have been expected basing on the relative frequency of tokens. This finding contradicts previous studies that treated disfluency clusters as a more marginal phenomenon and emphasizes the importance of a distributional, rather than merely structural, approach to annotating disfluencies. Furthermore, individual types of disfluency tokens demonstrate significantly different distributional patterns. Compared to other types, self-repairs occur more often in isolation, while words with hesitation lengthening appear predominantly in clusters, and filled pauses most often group with silent pauses to form quasi-clusters.
Smirnova, Katerina, Korotaev, Nikolay, Panikratova, Yana, Lebedeva, Irina, Pechenkova, Ekaterina, & Fedorova, Olga. (2020). Using the RUPEX multichannel corpus in a pilot fMRI study on speech disfluencies. In: LREC-2020, p. 195-203, 2020
In this paper we provide the pilot neuroimaging study of the possible neural correlates of speech... more In this paper we provide the pilot neuroimaging study of the possible neural correlates of speech disfluencies perception, using a combination of the corpus and functional magnetic-resonance (fMRI) methods. Special technical procedure of selecting stimulus material from Russian multichannel corpus RUPEX allowed to create fragments in terms of requirements for the fMRI BOLD temporal resolution. They contain isolated speech disfluencies and their clusters. Also we used the referential task for participants fMRI scanning. As a result it was demonstrated that annotated multichannel corpora like RUPEX can be important resource for experimental research in interdisciplinary field.
Коротаев Н. А. (2019). Паузы хезитации в рассказе и в разговоре: сопоставительный количественный анализ // Труды международной конференции «Корпусная лингвистика-2019». СПб: Изд-во С.-Петерб. ун-та. – 48-54., 2019
На материале корпуса «Рассказы и разговоры о грушах» анализируется использование говорящими запол... more На материале корпуса «Рассказы и разговоры о грушах» анализируется использование говорящими заполненных пауз в двух коммуникативных режимах. Рассмотрено речевое поведение восьми участников, каждый из которых на различных этапах записей выступает и как единоличный говорящий, и как один из собеседников в разговоре. Показано, что у всех говорящих при переходе от монологического режима к диалогическому резко понижается доля заполненных пауз относительно общего времени говорения и относительно суммарного количества произнесенных слов.
Коротаев Н. А., Добров Г. Б., Хитров А. Н. (2019). Поиск в мультиканальном корпусе: разработка онлайновой системы // По материалам ежегодной Международной конференции "Диалог" (Москва, 29 мая - 1 июня 2019). Вып. 18. Доп. том. - 72-80., 2019
In this talk, we present preliminary results of developing an online search engine for the multic... more In this talk, we present preliminary results of developing an online search engine for the multichannel corpus “Russian Pear Chats and Stories” ( The engine operates on about 200 000 ELAN annotations that register vocal, oculomotor, and manual behavior of the participants of three communication sessions (approximately one hour long). On the server side, we rely on the internal ELAN search engine that we extend to implement additional features. We use the Java Servlet technology to transform user-generated queries into ELAN classes. On the client side, we provide a new friendly graphic user interface. It is implemented as a single page JavaScript application based on the Model-view-viewmodel pattern. Users can define a search domain, select units of multichannel behavior and specify their properties, create simple and complex queries, and play relevant video fragments in the Results section.
Подлесская В. И., Коротаев Н. А., Мазурина С. И. (2019). Самоисправления говорящего в русском монологическом и диалогическом дискурсе: опыт корпусного исследования // Компьютерная лингвистика и интеллектуальные технологии. Вып. 18(25). - 508-522., 2019
Self-initiated and other-initiated self-repairs (N=632) were investigated in a subcorpus (1 h 14 ... more Self-initiated and other-initiated self-repairs (N=632) were investigated in a subcorpus (1 h 14 min) extracted from the multichannel corpus “Russian Pear Chats and Stories”. The subcorpus consists of three communication sessions where participants retell and discuss the “Pear stories” film, hence each session contains both monologue and dialogue discourse parts. The overall rates of self-repairs and the distribution of their particular types were compared in monologues and dialogues. The results show that while, overall, speakers tend to repair more often in conversational than in retelling parts, particular types of repairs are distributed differently, e.g. (a) repetitions and restarts have higher rates in conversational parts, while corrections appear more often in retellings; (b) in retellings, reparandum and reparans appear more often within the same discourse unit, while in conversational parts, they tend to appear in separate discourse units.
Кибрик А. А., Коротаев Н. А., Федорова О. В., Евдокимова А. А. (2019). Единая мультиканальная аннотация как инструмент анализа естественного дискурса // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог". Вып. 18(25). - 265-280., 2019
This paper contributes to the research field of multichannel discourse analysis. Multichannel dis... more This paper contributes to the research field of multichannel discourse analysis. Multichannel discourse analysis explores numerous channels involved in natural communication, such as verbal structure, prosody, manual gesticulation, head movements, eye gaze, torso postures, etc., and treats them as parts of an integrated process. For the purposes of investigating the way participants interact with one another and the way different communication channel correlate, we introduce the notion of an integrated multichannel annotation created with ELAN software. In particular, we consider three topics: (1) temporal alignment between participants’ speech and manual gesticulation; (2) distribution of participants’ visual attention as they watch their interlocutors talking and gesticulating manually; (3) interrelationship between participants’ torso postures and head movements.
Коротаев Н. А., Добров Г. Б., Хитров А. Н. (2018). Опыт разработки онлайновой поисковой системы по мультиканальному корпусу // Российский журнал когнитивной науки (5), № 4. – 15-27., 2018
The paper presents preliminary results of developing an online search engine for a multichannel c... more The paper presents preliminary results of developing an online search engine for a multichannel corpus. A multichannel corpus is a collection of media files and annotations of the communication events registered in these files. Creating a user-friendly search engine for such corpora provides an important tool for analyzing the natural discourse. Specifically, it may shed light on how different communication channels — speech, prosody, gesticulation, eye gaze, etc. — interact during discourse production and comprehension. To empower our online search service, we rely on a system of multichannel annotation designed for the “Russian Pear Chats and Stories” corpus ( Three sessions, approximately one hour in duration combined, have been annotated for vocal, oculomotor, and manual gesturing channels. The annotations are stored in the .eaf format that is used in ELAN software ( This allowed us to implement the internal ELAN search engine on the server side. Using the Java Servlet technology, we transform user-generated queries into ELAN classes and thus delegate the query execution. Additionally, we patched the source code and extended the ELAN search engine to meet some specific requirements. On the client side, we are developing the user interface from scratch. The beta version is available at This is a single page JavaScript application. Users can define a search domain, select units of multichannel behavior and specify their properties, and create simple and complex queries with the help of a friendly GUI. In the Results tab, simplified transcripts are combined with relevant video fragments. We demonstrate these basic features using queries relevant to the analysis of elicitation in dialogues.
Коротаев Н. А. (2018). Интонационная структура устного рассказа в контексте незавершенности // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (Москва, 30 мая - 2 июня 2018). Вып. 17(24). - 337-350., 2018
Topic – focus articulation in Russian has been mainly studied against isolated utterances. In a c... more Topic – focus articulation in Russian has been mainly studied against isolated utterances. In a categorical sentence, this communicative opposition is reflected in the linear-accentual structure. For a simple declarative sentence, that would normally mean that the topic (theme) comes first and has a rising phrasal accent, while the focus (rheme) completes the utterance and is pronounced with a falling accent. At the same time, these formal features do more than just differentiate between topics and foci; they also mark the discourse-semantic category of phase. In syntactically simple utterances, topics tend to correlate with anticipated continuation, hence non-final phase; foci are usually phase-final. As I intend to show in this paper, the non-final phase provides a variety of contexts that challenge the topic – focus distinction. The study is based on the “Stories about presents and skiing” — a collection of prosodically annotated spoken narratives. In Section 1, I concentrate on issues within a simple clause, where non-final verbal elements often have a fuzzy communicative interpretation. In Section 2, I analyze complex syntactic structures. The data show that non-final clauses may demonstrate both thematic and rhematic properties with regard to their intonation patterns, internal structure and discourse function. Hence, one can claim that some non-final clauses are topics, while others are foci. However, a majority of non-final clauses in the analyzed corpus may not be unambiguously attributed to either of these categories. Section 3 provides a pilot study of complex intonation patterns. Only phase distinction being considered, utterances with more than one accentual phrase may follow either (i) the basic adaptation strategy (comprising of a non-final rising accent and a final falling accent), or, more often, (ii) a complicated strategy: (a) multiple parallel adaption, (b) consecutive adaptation, or (c) parenthetical strategy.
Коротаев Н. А. (2016). Союз то что в устной речи // Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН. Т. XII. Ч. 1. Исследования по типологии и грамматике. СПб.: Наука. - 101-105., 2016
Рассматриваются примеры сложноподчиненных объектных конструкций в устной русской речи, в которых ... more Рассматриваются примеры сложноподчиненных объектных конструкций в устной русской речи, в которых формальным средством выражения межклаузальных отношений выступает сочетание "то что". Высказывается гипотеза, что данное сочетание функционирует как единый союзный комплекс, не сводимый к соединению опорного местоимения с союзом "что". Этот комплекс характеризуется интонационной нерасчлененностью; кроме того, круг использования нового союза оказывается шире, чем у расчлененного варианта "то / что". Анализ синтаксических контекстов, в которых употребляется "то что" в устной речи, позволяет предположить, что это сочетание захватывает ряд стандартных употреблений союза "что".
Korotaev, Nikolay. (2024) Prosodic reduction of parentheticals in spoken Russian discourse // 57th Annual Meeting of the Societas Linguistica Europea. 21st – 24th August 2024. University of Helsinki. Book of abstracts. - 8215.
The main task of this research is to investigate and assess the degree of prosodic reduction of p... more The main task of this research is to investigate and assess the degree of prosodic reduction of parenthetical units in Russian spoken discourse. Two measures of reduction are discussed: tempo alternation and varitation in pitch range.
Korotaev, Nikolay. (2024) Multichannel resources of co-construction in conversation // The 40th Annual Meeting of the Israeli Linguistics Society in Honour of Haim B. Rosen. 20th March 2024. Tel Aviv University. Book of abstracts. – 7-8.
In this talk, I present a multichannel analysis of co-construction in Russian conversations When ... more In this talk, I present a multichannel analysis of co-construction in Russian conversations When analyzing instances of collaborative constructions, I propose for a tripartite sequential scheme. Based in how this scheme is realized, I define three types of communicative patterns taking place during co-construction.
Коротаев Н. А., Панышева Д. А., Неверова Е. А., Подлесская В. И. (2024) Корпус «Что я видел» как инструмент анализа панического дискурса // «Слово и жест». Научная конференция, посвященная памяти Е. А. Гришиной («Гришинские чтения»). Москва, 8 февраля 2024 г. Материалы конференции / Отв. ред. С. ...
В докладе дается краткая характеристика новому малому корпусному ресурсу — корпусу устных и письм... more В докладе дается краткая характеристика новому малому корпусному ресурсу — корпусу устных и письменных нарративных текстов «Что я видел», а также приводится обзор первых результатов сопоставительного анализа речи говорящих с диагностированным паническим расстройством и говорящих из контрольной группы, полученных на материале этого корпуса.
Korotaev, Nikolay. (2023) Elementary units of spoken discourse: expert vs. non-expert annotations // The 39th Annual Meeting of the Israeli Linguistics Society in Honour of Haim B. Rosen. 19th February 2023. The Open University of Israel, Ra’anana. Book of abstracts. – 16-17.
The talk addresses the issue of speech segmentation. One Russian spoken narrative was segmented i... more The talk addresses the issue of speech segmentation. One Russian spoken narrative was segmented into elementary discourse units by trained experts who followed an explicit instruction; afterwards, the very same narrative was annotated by “naïve” annotators not familiar with the instruction. The inter-annotator agreement for “naïve” annotators reached 0.65 (using Fleiss’ kappa); compared to the model annotations, the median value for “naïve” annotations was 0.76. Both values indicate a substantial agreement. To account for the decisions taken by “naïve” annotators, a multi-factored model was be proposed that includes pauses, accent placements, pitch movements and syntactic structure.
Коротаев Н. А. (2023) Слово и жест при совместном построении в диалоге // «Слово и жест». Научная конференция, посвященная памяти Е. А. Гришиной («Гришинские чтения»). Москва, 8 февраля 2023 г. Материалы конференции / Отв. ред. С. О. Савчук. М.: Институт русского языка им. В. В. Виноградова РАН. ...
В докладе представлена классификация случаев совместного построения в мультиканальном корпусе «Ра... more В докладе представлена классификация случаев совместного построения в мультиканальном корпусе «Рассказы и разговоры о грушах» (RUPEX). На основании трехчастной схемы коммуникативного обмена выделяется три базовых типа взаимодействия при совместном построении; различия между типами проиллюстрированы на примерах с одними и теми же участниками.
Коротаев Н. А. (2022) Разметка случаев совместного построения в мультиканальном корпусе // Когнитивные исследования языка Вып. № 4(51) : Язык – социальная когниция – коммуникация: материалы ХI Международного конгресса по когнитивной лингвистике. Московский государственный лингвистический универси..., 2022
The talk discusses basic principles for annotating conversational co‑constructions
in the multi... more The talk discusses basic principles for annotating conversational co‑constructions
in the multichannel corpus RUPEX. The underlying communicative structure is presented
as consisting of three steps. An example is provided that illustrates which vocal and kinetic resources are used by participants when creating this structure.
Коротаев Н. А. (2022) Сегментация речевого потока: взгляд «наивного разметчика» // «Слово и жест». Научная конференция, посвященная памяти Е. А. Гришиной («Гришинские чтения»). Москва, 8 февраля 2022 г. Материалы конференции. М.: Институт русского языка им. В. В. Виноградова РАН. – 34-38., 2022
В докладе обсуждаются закономерности, выявляемые при анализе разметок устного монологического тек... more В докладе обсуждаются закономерности, выявляемые при анализе разметок устного монологического текста силами неподготовленных «наивных» аннотаторов. Разметчикам предлагалось выполнить сегментацию речевого потока на минимальные шаги (элементарные дискурсивные единицы; ЭДЕ), при этом формальные и / или содержательные критерии выделения таких шагов предварительно не обсуждались. Полученные разметки были сопоставлены друг с другом и с эталонной разметкой, выполненной опытными аннотаторами на основании эксплицитной инструкции.
Korotaev, Nikolay, Dobrov, Grigory, & Khitrov, Andrej. (2021). Searching in “Russian Pear Chats and Stories”: Challenges of multi-party multichannel communication // Первый Национальный конгресс по когнитивным исследованиям, искусственному интеллекту и нейроинформатике. Ч. 2. – 540 – 543, 2021
The talk present basic features of online search system operating on the “Russian Pears Chats & S... more The talk present basic features of online search system operating on the “Russian Pears Chats & Stories” multichannel corpus available at Version 0.12.14 is presented, which uses SQL data format and provides extended options for queries and viewing results.
Коротаев Н. А., Неверова Е. А. (2021) Структурные типы элементарных дискурсивных единиц в монологической и диалогической устной речи // Первый Национальный конгресс по когнитивным исследованиям, искусственному интеллекту и нейроинформатике. Ч. 2. М.: НИЯУ МИФИ. – 101 – 105, 2021
В докладе представлены результаты сопоставительного анализа диалогических и монологических фрагме... more В докладе представлены результаты сопоставительного анализа диалогических и монологических фрагментов корпуса «Рассказы и разговоры о грушах» с точки зрения частотности встречаемых в них типов элементарных дискурсивных единиц. Показано, что в разговоре по сравнению с (пере)сказом значимо возрастает доля параклаузальных единиц и, напротив, понижаются доли клаузальных и регуляторных ЭДЕ.
Коротаев Н. А. (2021). Совместное построение в диалоге: опыт первичной корпусной разметки // «Слово и жест». Научная конференция, посвященная памяти Е. А. Гришиной («Гришинские чтения»). Москва, 8 февраля 2021 г. Материалы конференции. М.: Институт русского языка им. В. В. Виноградова РАН. – 18-21., 2021
В докладе представлены результаты предварительной аннотации случаев совместного построения реплик... more В докладе представлены результаты предварительной аннотации случаев совместного построения реплик в корпусе «Рассказы и разговоры о грушах». Рассматриваются такие параметры разметки, как тип совместного построения (завершение vs. расширение), уровень синтаксической структуры, интонационное оформление, характер линейного расположения компонентов и др.
Коротаев Н. А., Неверова Е. А. (2020). Жестикуляция и речь: опережение vs. запаздывание // Звегинцевские чтения – 2020: К 60-летию кафедры и отделения теоретической и прикладной лингвистики и 110-летию со дня рождения В.А. Звегинцева. Материалы конференции. М. – 62-64., 2020
В докладе обсуждаются результаты проверки гипотезы опережающей жестикуляции на материале корпуса ... more В докладе обсуждаются результаты проверки гипотезы опережающей жестикуляции на материале корпуса «Рассказы и разговоры о грушах». В предыдущих работах, выполненных на этом же материале, было продемонстрировано, что при установлении сугубо формальных соответствий между жестами и элементарными дискурсивными единицами наблюдается тенденция к запаздыванию, а не опережению жестов. В данном исследовании соответствия устанавливались уже на семантических основаниях; показано, что при таком подходе тенденция к запаздыванию ослабевает, но все же сохраняется, а гипотеза опережающей жестикуляции не подтверждается.
Кибрик А. А., Добров Г. Б., Коротаев Н. А. (2020). Мультиканальный ресурс и моделирование естественной коммуникации // Международная конференция «Лингвистический форум 2020: Язык и искусственный интеллект». Тезисы докладов. М.: Институт языкознания РАН. – 98-99., 2020
В докладе на примере темпа речепорождения и темпа говорения рассматриваются типы данных, получаем... more В докладе на примере темпа речепорождения и темпа говорения рассматриваются типы данных, получаемых при анализе естественного мультиканального дискурса. Разбирается эффект замедления в конце элементарных дискурсивных единиц; представляются результаты пилотного сопоставления того, как этот эффект реализован в корпусе «Рассказы и разговоры о грушах» и в речи голосового помощника «Алиса».
Коротаев Н. А. Речь и жестикуляция в диалоге vs. монологе: опыт контролируемого сопоставления // «Слово и жест». М.: Институт русского языка им. В. В. Виноградова РАН. – 14-16., 2020
В докладе представлены текущие результаты проекта, направленного на контролируемое сопоставление ... more В докладе представлены текущие результаты проекта, направленного на контролируемое сопоставление двух режимов коммуникации: диалогического и монологического. На материале корпуса «Рассказы и разговоры о грушах» делается предварительный вывод о том, что режим коммуникации оказывает существенное влияние на характер речевых сбоев, на соотношение интонации и фазово-иллокутивной семантики, на взаимодействие речи и мануальной жестикуляции в составе мультиканальной коммуникации.
Cмирнова К. В., Коротаев Н. А., Подлесская В. И., Федорова О. В. (2020). Речевые сбои и жестикуляция: отбор стимульного материала для психолингвистического и нейрофизиологического исследований // «Слово и жест». М.: Институт русского языка им. В. В. Виноградова РАН. – 35-38., 2020
В докладе представлены результаты первичного корпусного анализа, направленного на поиск стимульны... more В докладе представлены результаты первичного корпусного анализа, направленного на поиск стимульных материалов для двух серий экспериментов (психолингвистического и с использованием функционально-резонансной томографии). Эксперименты призваны пролить свет на восприятие речевых сбоев и прагматических мануальных жестов — как по отдельности, так и связи между собой. Показано, что характеристики естественного дискурса существенно затрудняют поиск требуемых для экспериментов фрагментов.
Korotaev, Nikolay (2019). Intonation patterns of complex utterances in Russian spoken discourse // 52nd Annual Meeting of the Societas Linguistica Europea. 21st – 24th August 2019. Leipzig University, Germany. Book of abstracts. - 545-547., 2019
In this talk, I analyze the intonation structure of complex utterances (CUs) in Russian spoken na... more In this talk, I analyze the intonation structure of complex utterances (CUs) in Russian spoken narratives. I define CUs as comprising at least two clauses and/or other discourse units such that only the last one exhibits formal properties of completion, whereas the preceding unit(s) is/are intonationally non-final. CUs provide a regular context for neutralization of the core information structure distinction of topic vs. focus. Basing on the data from the prosodically annotated collection “Stories about presents and skiing”, I claim that the analysis in terms of final vs. non-final transitional continuity yields useful insights on the internal structure of CUs regardless of whether the topic-focus distinction may be consistently applied.
Arkadiev, Peter, Kimmelman, Vadim, Korotaev, Nikolay, & Podlesskaya, Vera (2019). Managing information structure in spoken and sign languages: formal properties and natural discourse organization // 52nd Annual Meeting of the Societas Linguistica Europea. Book of abstracts. - 530-533., 2019
The aim of the workshop is to bring together scholars working on information structure (IS) acros... more The aim of the workshop is to bring together scholars working on information structure (IS) across different linguistic modalities (vocal/auditory and manual/visual). Taking into account experimental, corpus and field data from spoken and sign languages, we will take a new look at IS phenomena occurring cross-modally, with a special attention to interaction between IS and discourse organization.
Коротаев Н. А., Добров Г. Б., Хитров А. Н. (2019). Система поиска в мультиканальном корпусе «Рассказы и разговоры о грушах» // Когнитивная наука в Москве: новые исследования. Материалы конференции 19 июня 2019 г. Под ред. Е.В. Печенковой, М.В. Фаликман. М.: «Буки Веди», ИППиП. – 619-624., 2019
In this talk, we briefly characterize the online search engine that is being developed for the “R... more In this talk, we briefly characterize the online search engine that is being developed for the “Russian Pears Chats and Stories” multichannel corpus ( The system under development uses multichannel annotations stored in .eaf format, which is compatible with ELAN software. Since ELAN provides an internal search system that allows for an integration via Java Servlet, we use this solution on the server side. On the client side, however, we have developed a single-page application from scratch. Users of the online interface can define search domains; select units of vocal, manual, or oculomotor behavior; specify their formal and substantial properties; and combine them in complex queries. The results are shown in a text format together with the corresponding video fragments.
Коротаев Н. А., Добров Г. Б., Хитров А. Н. (2019). Онлайн-поиск по мультиканальному корпусу: первые результаты и перспективы развития // «Слово и жест». Научная конференция, посвященная памяти Е. А. Гришиной («Гришинские чтения»). Москва, 8 февраля 2019 г. М.: Институт русского языка РАН. - 8-10, 2019
В докладе кратко описывается бета-версия поисковой системы, реализованной для мультиканального ко... more В докладе кратко описывается бета-версия поисковой системы, реализованной для мультиканального корпуса «Рассказы и разговоры о грушах». Система, содержательно основанная на единой схеме мультиканальной аннотации в ELAN, выполнена в формате одностраничного веб-приложения. Описываются основные возможности пользовательского интерфейса и принципиальные технические решения.
Федорова О. В., Печенкова Е. В., Лебедева И. С., Коротаев Н. А. (2019). Речевые сбои и жестикуляция: лингвистический и нейрофизиологический аспекты // «Слово и жест». Научная конференция, посвященная памяти Е. А. Гришиной («Гришинские чтения»). Материалы конференции. – 21-23., 2019
Доклад посвящен представлению нового проекта по изучению устного мультимодального дискурса, в рам... more Доклад посвящен представлению нового проекта по изучению устного мультимодального дискурса, в рамках которого будут объединены усилия лингвистов, психологов и специалистов в области нейровизуализации. В ходе работы будет рассмотрен вопрос о взаимодействии речевых сбоев и сопровождающей их мануальной жестикуляции.
Коротаев Н. А. (2018). Вопрос и полуутверждение в структуре мультиканального дискурса // Восьмая Международная конференция по когнитивной науке, 18 – 21 октября 2018 г., Светлогорск, Россия. Тезисы докладов. – 1311-1313., 2018
Одной из основных задач мультимодальной лингвистики является описание того, как участники естеств... more Одной из основных задач мультимодальной лингвистики является описание того, как участники естественной коммуникации координируют информацию из разных каналов (вокального, жестового, глазодвигательного и др.) при решении стоящих перед ними задач. В настоящей работе этот вопрос рассматривается на примере отдельной задачи, а именно — задачи элицитации, т.е. извлечения одним из участников разговора информации у своих собеседников. Исследование проведено на материале эталонного подкорпуса мультиканального корпуса «Рассказы и разговоры о грушах» (три записи общей продолжительностью около 1 часа).
Коротаев Н. А. (2009). Просодическая организация сложноподчиненных конструкций // Кибрик А. А., Подлесская В. И. (ред.) «Рассказы о сновидениях»: Корпусное исследование устного русского дискурса. М.: ЯСК. - 488-522., 2009
В главе рассматриваются два параметра просодической организации сложноподчиненных конструкций в у... more В главе рассматриваются два параметра просодической организации сложноподчиненных конструкций в устной монологической речи: величина пограничной паузы и тип акцентной схемы, т.е. сочетания движений тона в составляющих конструкции. Показана связь между этими параметрами, а также между каждым из них по отдельности и семантико-синтаксическим классом конструкции.
Коротаев Н. А., Кибрик А. А., Подлесская В. И. (2009). Осложнения канонической структуры: на стыке моно- и полипредикативности // Кибрик А. А., Подлесская В. И. (ред.) «Рассказы о сновидениях»: Корпусное исследование устного русского дискурса. М.: ЯСК. – 219-332., 2009
В главе рассматриваются явления, отклоняющиеся от преобладающего в устном дискурсе стандарта вида... more В главе рассматриваются явления, отклоняющиеся от преобладающего в устном дискурсе стандарта вида «одна элементарная дискурсивная единица = одна клауза» в сторону большей синтаксической сложности. Отдельные разделы посвящены конструкциям с сериализациями, глагольным редупликациям, грамматикализации матричных предикатов — в частности, в эпистемических конструкциях. Разделы 7.3 и 7.4 преимущественно написаны В. Л. Цукановой, разделы 7.7 и 7.8 — А. О. Литвиненко.
Кибрик А. А., Подлесская В. И., Коротаев Н. А. (2009). Структура устного дискурса: основные элементы и канонические явления // Кибрик А. А., Подлесская В. И. (ред.) «Рассказы о сновидениях»: Корпусное исследование устного русского дискурса. М.: ЯСК. – 55-101., 2009
В главе вводятся основные понятия, используемые при транскрибировании устного монологического дис... more В главе вводятся основные понятия, используемые при транскрибировании устного монологического дискурса, и анализируются центральные для этого типа дискурса явления. Обсуждаются сегментация речевого потока на элементарные дискурсивные единицы (ЭДЕ), чередование вокализации и пауз, дискурсивные функции акцентов и тональных движений, способы выражения базовых иллокуций. Демонстрируется наиболее стандартный тип соотношения интонационного и синтаксического членений, при котором одной ЭДЕ соответствует одна клауза.
Кибрик А. А., Подлесская В. И., Коротаев Н. А. (2009). Неканонические явления // Кибрик А. А., Подлесская В. И. (ред.) «Рассказы о сновидениях»: Корпусное исследование устного русского дискурса. М.: ЯСК. – 102-176., 2009
В главе исчисляются наиболее частотные типы отклонений от канонического формата локальной дискурс... more В главе исчисляются наиболее частотные типы отклонений от канонического формата локальной дискурсивной структуры. Анализируются нефинитные глагольные клаузы, различные типы субклаузальных дискурсивных единиц, регуляторные единицы, стратегия вставки, разграничение финального и нефинального падений, случаи иллокутивной неоднородности и проч. В написании разделов 5.4 и 5.5 принимала участие О. А. Савельева-Трофимова, в написании раздела 5.4 и подраздела 5.5.5 — В. Л. Цуканова.
Talk presented at the 57th Annual Meeting of the Societas Linguistica Europea (SLE), Helsinki, Au... more Talk presented at the 57th Annual Meeting of the Societas Linguistica Europea (SLE), Helsinki, August 21st, 2024
Доклад, представленный онлайн на конференции «Проблемы языка: взгляд молодых ученых». Москва, Инс... more Доклад, представленный онлайн на конференции «Проблемы языка: взгляд молодых ученых». Москва, Институт языкознания РАН, 24 апреля 2024 г.
Talk presented at the 40th Annual Meeting of the Israeli Linguistics Society, Tel Aviv, March 20t... more Talk presented at the 40th Annual Meeting of the Israeli Linguistics Society, Tel Aviv, March 20th, 2024
Talk presented at the seminar lead by Prof. Yael Maschler at the University of Haifa, February 14... more Talk presented at the seminar lead by Prof. Yael Maschler at the University of Haifa, February 14th, 2024
Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Инстит... more Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Институт русского языка РАН, 8 февраля 2024 г.
Talk presented at the 39th Annual Meeting of the Israeli Linguistics Society, Ra’anana, February ... more Talk presented at the 39th Annual Meeting of the Israeli Linguistics Society, Ra’anana, February 19th, 2023.
Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Инстит... more Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Институт русского языка РАН, 8 февраля 2023 г.
Доклад, представленный онлайн на XI Международном конгрессе по когнитивной лингвистике. Москва, 9... more Доклад, представленный онлайн на XI Международном конгрессе по когнитивной лингвистике. Москва, 9 ноября 2022 г.
Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Инстит... more Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Институт русского языка, 8 февраля 2022 г.
Доклад, представленный онлайн на Девятом междисциплинарном семинаре «Анализ разговорной русской р... more Доклад, представленный онлайн на Девятом междисциплинарном семинаре «Анализ разговорной русской речи», 29 июня 2021 г.
Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Инстит... more Доклад, представленный онлайн на конференции «Слово и жест» памяти Е. А. Гришиной. Москва, Институт русского языка, 8 февраля 2021 г.
Доклад, представленный онлайн на конференции «Язык и методы его описания». Москва, РГГУ, 28 январ... more Доклад, представленный онлайн на конференции «Язык и методы его описания». Москва, РГГУ, 28 января 2021 г.
Доклад, представленный совместно с Е. А. Неверовой на Звегинцевских чтениях-2020. Москва, МГУ, 31... more Доклад, представленный совместно с Е. А. Неверовой на Звегинцевских чтениях-2020. Москва, МГУ, 31 октября 2020 г.
Постерный доклад, представленный совместно с Е. А. Неверовой на IX Международной конференции по к... more Постерный доклад, представленный совместно с Е. А. Неверовой на IX Международной конференции по когнитивной науке. Москва, 16 октября 2020 г.
Talk presented online at the International Conference on Cognitive Sciences (ICCS 2020), October ... more Talk presented online at the International Conference on Cognitive Sciences (ICCS 2020), October 13th, 2020.
Коротаев Н. А. (2019). «Рассказы и разговоры о грушах»: принципы вокальной аннотации. Версия 10.01.2019, 2019
В документе описываются содержательные и технические принципы выполнения вокальной (вербально-про... more В документе описываются содержательные и технические принципы выполнения вокальной (вербально-просодической) разметки в рамках аннотации мультиканального корпуса «Рассказы и разговоры о грушах». Описана последовательность этапов разметки, поясняются используемые обозначения, охарактеризован процесс конвертации текстовой аннотации в формат ELAN. В приложениях приводятся образцы разметок и список всех транскрипционных обозначений.
Korotaev, Nikolay. (2019). “Russian Pear Chats and Stories”: Vocal annotation guide. Version 10.01.2019, 2019
This document describes the process of annotating the vocal component of the multichannel corpus ... more This document describes the process of annotating the vocal component of the multichannel corpus “Russian Pear Chats and Stories”. A brief overview of the general annotation principles is provided, the stages of the annotation procedure are described, and transcription symbols are explained. Appendices contain annotation examples and a complete list of transcription conventions.
Коротаев Н. А., Евдокимова А. А., Литвиненко А. О., Николаева Ю. В., Сухова Н. В. (2018). Схема мультиканальной аннотации в ELAN: вокальный, окуломоторный, цефалический и мануальный каналы. Версия 14.12.2018. , 2018
В документе представлена схема мультиканальной аннотации, используемая при разметке / конвертации... more В документе представлена схема мультиканальной аннотации, используемая при разметке / конвертации в ELAN вокальных, окуломоторных, цефалических и мануальных действий участников записей корпуса «Рассказы и разговоры о грушах». В первом разделе приводятся таблицы с информацией о слоях аннотации для каждого из четырех каналов. Во втором разделе приводятся списки возможных значений в интервалах слоев, упомянутых в первом разделе.
Korotaev, Nikolay A., Evdokimova, Alexandra A., Litvinenko, Alla O., Nikolaeva, Julia V., & Sukhova, Natalia V. (2018). Multichannel annotation in ELAN: Vocal, oculomotor, cephalic, and manual channels. Version 14.12.2018., 2018
This document describes a multichannel annotation scheme that is used in the “Russian Pear Chats ... more This document describes a multichannel annotation scheme that is used in the “Russian Pear Chats and Stories” corpus to represent vocal, oculomotor, cephalic, and manual behavior in ELAN software. The first section provides tables with information concerning annotation tiers for each of the four channels. The second section contains lists of possible values for the intervals at different tiers.
Коротаев Н. А. (2009). Синтаксис и просодия в системе средств дискурсивной связности текста. Дисс. … кандидата филологических наук. М.: РГГУ., 2009
Диссертационное исследование посвящено анализу того, как в устной речи реализуются сложные синтак... more Диссертационное исследование посвящено анализу того, как в устной речи реализуются сложные синтаксические структуры, привычные лингвистам по изучению нормативного письменного языка, прежде всего — сложноподчиненные конструкции. В центре внимания — взаимодействие синтаксических и просодических факторов, обеспечивающих существование такого рода единиц как сравнительно устойчивого класса и обусловливающих их поведение в устном русском монологическом дискурсе. На материале корпуса «Рассказы о сновидениях» решаются следующие задачи: (1) предлагаются критерии выделения полипредикативных конструкций в устной речи как класса; (2) формулируются принципы деления полипредикативных конструкций на элементарные дискурсивные единицы; (3) анализируется просодическая структура сложноподчиненных конструкций и ряда менее жестких комплексов.
Коротаев Н. А. (2002). Усовершенствование аппарата синтаксических групп. Дипломная работа. М.: РГГУ., 2002
В дипломной работе предлагается ряд уточнений в формальный аппарат синтаксических групп, разработ... more В дипломной работе предлагается ряд уточнений в формальный аппарат синтаксических групп, разработанный А. В. Гладким. Приведен ряд конструкций, для которых не удается провести адекватный анализ в рамках исходной версии аппарата. Формулируется уточненное понимание системы синтаксических групп.
Р. Дули, С. Левинсон. Анализ дискурса: базовые понятия, 2019
Russian translation of "Analyzing Discourse: A Manual of Basic Concepts" by Robert A. Dooley and... more Russian translation of "Analyzing Discourse: A Manual of Basic Concepts" by Robert A. Dooley and Stephen H. Levinsohn. Translated by Nikolay Korotaev and Roman Kim, SIL editor Linda Humnick.
Papers by Nikolay Korotaev
during co-construction, including whether the participants act in a truly co-operative manner. I distinguish between three types of communicative patterns that may take place during co-construction: “Requested ooperation”, “Unplanned Cooperation”, and “Non-realized Interaction”. The data suggest that these types can be influenced by the way the knowledge of the discussed events is distributed among the participants.
All three parameters showed statistical significance. Parenthetical units tend to have higher articulation rate, lower mean pitch value and more narrow pitch range than their contexts. However, these tendencies vary in effect size, as pitch range in parenthetical units changes more dramatically than two other measures. Given that, I tentatively claim that narrowing the pitch range can be regarded as the key prosodic means that speakers use to distinguish parentheticals from the main line in spontaneous discourse.
In Section 1, I concentrate on issues within a simple clause, where non-final verbal elements often have a fuzzy communicative interpretation. In Section 2, I analyze complex syntactic structures. The data show that non-final clauses may demonstrate both thematic and rhematic properties with regard to their intonation patterns, internal structure and discourse function. Hence, one can claim that some non-final clauses are topics, while others are foci. However, a majority of non-final clauses in the analyzed corpus may not be unambiguously attributed to either of these categories. Section 3 provides a pilot study of complex intonation patterns. Only phase distinction being considered, utterances with more than one accentual phrase may follow either (i) the basic adaptation strategy (comprising of a non-final rising accent and a final falling accent), or, more often, (ii) a complicated strategy: (a) multiple parallel adaption, (b) consecutive adaptation, or (c) parenthetical strategy.
during co-construction, including whether the participants act in a truly co-operative manner. I distinguish between three types of communicative patterns that may take place during co-construction: “Requested ooperation”, “Unplanned Cooperation”, and “Non-realized Interaction”. The data suggest that these types can be influenced by the way the knowledge of the discussed events is distributed among the participants.
All three parameters showed statistical significance. Parenthetical units tend to have higher articulation rate, lower mean pitch value and more narrow pitch range than their contexts. However, these tendencies vary in effect size, as pitch range in parenthetical units changes more dramatically than two other measures. Given that, I tentatively claim that narrowing the pitch range can be regarded as the key prosodic means that speakers use to distinguish parentheticals from the main line in spontaneous discourse.
In Section 1, I concentrate on issues within a simple clause, where non-final verbal elements often have a fuzzy communicative interpretation. In Section 2, I analyze complex syntactic structures. The data show that non-final clauses may demonstrate both thematic and rhematic properties with regard to their intonation patterns, internal structure and discourse function. Hence, one can claim that some non-final clauses are topics, while others are foci. However, a majority of non-final clauses in the analyzed corpus may not be unambiguously attributed to either of these categories. Section 3 provides a pilot study of complex intonation patterns. Only phase distinction being considered, utterances with more than one accentual phrase may follow either (i) the basic adaptation strategy (comprising of a non-final rising accent and a final falling accent), or, more often, (ii) a complicated strategy: (a) multiple parallel adaption, (b) consecutive adaptation, or (c) parenthetical strategy.
in the multichannel corpus RUPEX. The underlying communicative structure is presented
as consisting of three steps. An example is provided that illustrates which vocal and kinetic resources are used by participants when creating this structure.