In this paper, we describe how the TEITOK corpus tools helped to create a diachronic corpus for O... more In this paper, we describe how the TEITOK corpus tools helped to create a diachronic corpus for Old Spanish that contains both paleographic and linguistic information, which is easy to use for nonspecialists, and in which it is easy to perform manual improvements to automatically assigned POS tags and lemmas.
A number of the world’s languages are characterized by having structures where a non-finite verb ... more A number of the world’s languages are characterized by having structures where a non-finite verb occupies the initial position in the sentence, and is separated from its arguments or other associated VP material by a tensed auxiliary or auxiliary-like verb. The analytical difficulties posed by these constructions are especially well known to syntacticians investigating the Germanic languages. Due to the lack of an elegant and unproblematic treatment of their idiosyncratic properties, the modalities of non-finite verb fronting known as Remnant Topicalization and Stylistic Fronting are still a very popular research topic among specialists in this field. Recent investigations on non-finite verb fronting constructions in Old Spanish (OSp) and in some Slavic languages (Lema & Rivero 1989; Rivero 1991 and related work) have resulted in the postulation of an additional type of syntactic operation known as Long Head Movement.
En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático d... more En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático de un corpus de textos de español antiguo utilizando herramientas de Procesamiento de Lenguaje Natural (en adelante PLN) desarrolladas para el español moderno. Para poder realizar una investigación empírica sobre la evolución histórica de una lengua es fundamental tener un conjunto de textos en los que analizar el fenómeno que pretendemos estudiar. Frente a la tarea del lingüista o filólogo clásico, que consistía ...
In this article we describe two different strategies for the automatic tagging of a Spanish diach... more In this article we describe two different strategies for the automatic tagging of a Spanish diachronic corpus involving the adaptation of existing NLP tools developed for modern Spanish. In the initial approach we follow a state-of-the-art strategy, which consists on standardizing the spelling and the lexicon. This approach boosts POS-tagging accuracy to 90, which represents a raw improvement of over 20% with respect to the results obtained without any pre-processing. In order to enable non-expert users in NLP to use this new ...
El proyecto Preparación Automatizada de Documentos, PrADo, se inició a partir del interés de los ... more El proyecto Preparación Automatizada de Documentos, PrADo, se inició a partir del interés de los dos grupos investigadores, de la Universitat Pompeu Fabra y de la Universitat Autònoma de Barcelona, en el procesamiento de textos reales no restringidos y en el establecimiento de métodos de procesamiento estables y eficientes para las lenguas habladas en Cataluña, el catalán y el castellano. Ver en el apéndice C la lista de investigadores de cada grupo.
Localización: Revista española de lingüística aplicada, ISSN 0213-2028, Vol. Extra 1, 1990 (Ejemp... more Localización: Revista española de lingüística aplicada, ISSN 0213-2028, Vol. Extra 1, 1990 (Ejemplar dedicado a: Nuevas corrientes lingüísticas. Aplicación a la descripción del inglés/coord. por María Teresa Turell Julià), págs. 171-192
En muchas de las comunidades del mundo donde coexisten varias lenguas es común observar cómo un m... more En muchas de las comunidades del mundo donde coexisten varias lenguas es común observar cómo un mismo hablante cambia de un idioma a otro de forma sistemática durante el curso de una sola conversación. Este fenómeno, llamado code-switching en el mundo anglosajón1, y al que nos referiremos aquí por alternancia de códigos, es el objeto de análisis de este artículo2. Este trabajo nunca se hubiera llevado a cabo sin la inspiración y consejos de Ellen Prince, quien nos introdujo al estudio de la alternancia de códigos. Este tipo de comportamiento lingüístico provoca muchas veces reacciones contrarias tanto entre los hablantes de comunidades monolingües como entre los hablan tes bilingües de comunidades donde la alternancia de códigos no es práctica habitual. Uno de los prejuicios más extendidos en este ámbito es suponer que las personas que optan por este tipo de estrategia comunicativa no están dotadas de los conocimientos básicos para hablar adecuadamente ninguna de las dos lenguas; es decir, que no poseen una competencia lingüística íntegra en ninguna de las dos gramáticas en cuestión. Por ejemplo, E. Haugen3 4 * * * cita las observaciones realizadas por un visitante noruego sobre el habla de las comunidades de origen escandinavo en los Estados Unidos; 'Strictly speaking, it is no language whatever, but a gruesome mixture of Norwegian and En glish, and often one does not know whether to take it humorously or seriously'1 1. Los profesionales de la lingüística, lejos de adoptar tal actitud, se han dedicado a analizar la alternancia de códigos en todas sus vertientes como un fenómeno más dentro del ámbito de estudio de esta disciplina. Hasta fechas recientes, la mayor parte de investigaciones sobre este tema provenían de los campos de la sociolingüística o del análisis de la conversación. El mayor énfasis en este tipo de trabajos había sido dirigido a la investigación del tipo de relaciones que 1 Véase U. Weinreich, Languages in contad (La Haya, 1953). 1 Este artículo está basado, en parte, en J.M. Fontana, 'The Lexicon: A cosmopolitan com ponent in the competence model', manuscrito (University of Pennsylvania, Filadèlfia, 1987) y E. Vallduví, 'On lexical and grammatical language mixing', en Linguistic Change and Contact: N\VAV-XVI\@. (= Texas Linguistic Forum 30), ed. K. Ferrara et ai. (Austin, 1988), págs. 368-377. El orden de los autores es puramente alfabético. 3 E. Haugen, 'Norm and deviation in bilingual communities', en Bilingualism: Psychologi cal, social, and educational implications, ed. P.A. Hornby (Nueva York, 1977), págs. 91-102). 4 Ibid., pág. 94. [Trad.: En el sentido genuino de la palabra no es en absoluto una lengua, sino una mezcla espantosa de noruego e inglés, y a menudo uno no sabe si lomárselo en serio o en broma.] 171
INTRODUCCIÓN El rápido desarrollo de la tecnología y la creación de corpus digitalizados ha trans... more INTRODUCCIÓN El rápido desarrollo de la tecnología y la creación de corpus digitalizados ha transformado radicalmente el mundo de la lingüística y la filología en las últimas décadas. Estos recursos han abierto nuevas vías de investigación hasta ahora inimaginables o inviables. Los datos obtenidos gracias a los corpus y otras herramientas computacionales permiten al lingüista localizar más fácilmente cambios concretos en la evolución de una lengua, y también descubrir tendencias generales en el cambio lingüístico que serían difíciles de explorar de otra manera. En esta línea de investigación destacan, por ejemplo, el estudio realizado por Han y Kroch (2000) sobre el origen del verbo auxiliar do a partir de datos del Penn-Helsinki Parsed Corpus of Middle English, o el de Sagi, Kaufmann y Clark (2009), que utilizan un corpus derivado del corpus Helsinki (Rissanen 1994) para estudiar el cambio semántico de las palabras dog, deer y do. Actualmente no existe un corpus histórico del españ...
Información del artículo La estandarización de las pruebas en un estudio sobre los efectos de la ... more Información del artículo La estandarización de las pruebas en un estudio sobre los efectos de la movilidad (estancia en el país de lengua meta) en la competencia oral y escrita de los estudiantes de inglés universitarios.
In this article we describe two different strategies for the automatic tagging of a Spanish diach... more In this article we describe two different strategies for the automatic tagging of a Spanish diachronic corpus involving the adaptation of existing NLP tools developed for modern Spanish. In the initial approach we follow a state-of-the-art strategy, which consists on standardizing the spelling and the lexicon. This approach boosts POS-tagging accuracy to 90, which represents a raw improvement of over 20% with respect to the results obtained without any pre-processing. In order to enable non-expert users in NLP to use this new resource, the corpus has been integrated into IAC (Corpora Interface Access). We discuss the shortcomings of the initial approach and propose a new one, which does not consist in adapting the source texts to the tagger, but rather in modifying the tagger for the direct treatment of the old variants.
In this paper, we describe how the TEITOK corpus tools helped to create a diachronic corpus for O... more In this paper, we describe how the TEITOK corpus tools helped to create a diachronic corpus for Old Spanish that contains both paleographic and linguistic information, which is easy to use for nonspecialists, and in which it is easy to perform manual improvements to automatically assigned POS tags and lemmas.
A number of the world’s languages are characterized by having structures where a non-finite verb ... more A number of the world’s languages are characterized by having structures where a non-finite verb occupies the initial position in the sentence, and is separated from its arguments or other associated VP material by a tensed auxiliary or auxiliary-like verb. The analytical difficulties posed by these constructions are especially well known to syntacticians investigating the Germanic languages. Due to the lack of an elegant and unproblematic treatment of their idiosyncratic properties, the modalities of non-finite verb fronting known as Remnant Topicalization and Stylistic Fronting are still a very popular research topic among specialists in this field. Recent investigations on non-finite verb fronting constructions in Old Spanish (OSp) and in some Slavic languages (Lema & Rivero 1989; Rivero 1991 and related work) have resulted in the postulation of an additional type of syntactic operation known as Long Head Movement.
En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático d... more En este trabajo se describen las técnicas y estrategias empleadas para el etiquetado automático de un corpus de textos de español antiguo utilizando herramientas de Procesamiento de Lenguaje Natural (en adelante PLN) desarrolladas para el español moderno. Para poder realizar una investigación empírica sobre la evolución histórica de una lengua es fundamental tener un conjunto de textos en los que analizar el fenómeno que pretendemos estudiar. Frente a la tarea del lingüista o filólogo clásico, que consistía ...
In this article we describe two different strategies for the automatic tagging of a Spanish diach... more In this article we describe two different strategies for the automatic tagging of a Spanish diachronic corpus involving the adaptation of existing NLP tools developed for modern Spanish. In the initial approach we follow a state-of-the-art strategy, which consists on standardizing the spelling and the lexicon. This approach boosts POS-tagging accuracy to 90, which represents a raw improvement of over 20% with respect to the results obtained without any pre-processing. In order to enable non-expert users in NLP to use this new ...
El proyecto Preparación Automatizada de Documentos, PrADo, se inició a partir del interés de los ... more El proyecto Preparación Automatizada de Documentos, PrADo, se inició a partir del interés de los dos grupos investigadores, de la Universitat Pompeu Fabra y de la Universitat Autònoma de Barcelona, en el procesamiento de textos reales no restringidos y en el establecimiento de métodos de procesamiento estables y eficientes para las lenguas habladas en Cataluña, el catalán y el castellano. Ver en el apéndice C la lista de investigadores de cada grupo.
Localización: Revista española de lingüística aplicada, ISSN 0213-2028, Vol. Extra 1, 1990 (Ejemp... more Localización: Revista española de lingüística aplicada, ISSN 0213-2028, Vol. Extra 1, 1990 (Ejemplar dedicado a: Nuevas corrientes lingüísticas. Aplicación a la descripción del inglés/coord. por María Teresa Turell Julià), págs. 171-192
En muchas de las comunidades del mundo donde coexisten varias lenguas es común observar cómo un m... more En muchas de las comunidades del mundo donde coexisten varias lenguas es común observar cómo un mismo hablante cambia de un idioma a otro de forma sistemática durante el curso de una sola conversación. Este fenómeno, llamado code-switching en el mundo anglosajón1, y al que nos referiremos aquí por alternancia de códigos, es el objeto de análisis de este artículo2. Este trabajo nunca se hubiera llevado a cabo sin la inspiración y consejos de Ellen Prince, quien nos introdujo al estudio de la alternancia de códigos. Este tipo de comportamiento lingüístico provoca muchas veces reacciones contrarias tanto entre los hablantes de comunidades monolingües como entre los hablan tes bilingües de comunidades donde la alternancia de códigos no es práctica habitual. Uno de los prejuicios más extendidos en este ámbito es suponer que las personas que optan por este tipo de estrategia comunicativa no están dotadas de los conocimientos básicos para hablar adecuadamente ninguna de las dos lenguas; es decir, que no poseen una competencia lingüística íntegra en ninguna de las dos gramáticas en cuestión. Por ejemplo, E. Haugen3 4 * * * cita las observaciones realizadas por un visitante noruego sobre el habla de las comunidades de origen escandinavo en los Estados Unidos; 'Strictly speaking, it is no language whatever, but a gruesome mixture of Norwegian and En glish, and often one does not know whether to take it humorously or seriously'1 1. Los profesionales de la lingüística, lejos de adoptar tal actitud, se han dedicado a analizar la alternancia de códigos en todas sus vertientes como un fenómeno más dentro del ámbito de estudio de esta disciplina. Hasta fechas recientes, la mayor parte de investigaciones sobre este tema provenían de los campos de la sociolingüística o del análisis de la conversación. El mayor énfasis en este tipo de trabajos había sido dirigido a la investigación del tipo de relaciones que 1 Véase U. Weinreich, Languages in contad (La Haya, 1953). 1 Este artículo está basado, en parte, en J.M. Fontana, 'The Lexicon: A cosmopolitan com ponent in the competence model', manuscrito (University of Pennsylvania, Filadèlfia, 1987) y E. Vallduví, 'On lexical and grammatical language mixing', en Linguistic Change and Contact: N\VAV-XVI\@. (= Texas Linguistic Forum 30), ed. K. Ferrara et ai. (Austin, 1988), págs. 368-377. El orden de los autores es puramente alfabético. 3 E. Haugen, 'Norm and deviation in bilingual communities', en Bilingualism: Psychologi cal, social, and educational implications, ed. P.A. Hornby (Nueva York, 1977), págs. 91-102). 4 Ibid., pág. 94. [Trad.: En el sentido genuino de la palabra no es en absoluto una lengua, sino una mezcla espantosa de noruego e inglés, y a menudo uno no sabe si lomárselo en serio o en broma.] 171
INTRODUCCIÓN El rápido desarrollo de la tecnología y la creación de corpus digitalizados ha trans... more INTRODUCCIÓN El rápido desarrollo de la tecnología y la creación de corpus digitalizados ha transformado radicalmente el mundo de la lingüística y la filología en las últimas décadas. Estos recursos han abierto nuevas vías de investigación hasta ahora inimaginables o inviables. Los datos obtenidos gracias a los corpus y otras herramientas computacionales permiten al lingüista localizar más fácilmente cambios concretos en la evolución de una lengua, y también descubrir tendencias generales en el cambio lingüístico que serían difíciles de explorar de otra manera. En esta línea de investigación destacan, por ejemplo, el estudio realizado por Han y Kroch (2000) sobre el origen del verbo auxiliar do a partir de datos del Penn-Helsinki Parsed Corpus of Middle English, o el de Sagi, Kaufmann y Clark (2009), que utilizan un corpus derivado del corpus Helsinki (Rissanen 1994) para estudiar el cambio semántico de las palabras dog, deer y do. Actualmente no existe un corpus histórico del españ...
Información del artículo La estandarización de las pruebas en un estudio sobre los efectos de la ... more Información del artículo La estandarización de las pruebas en un estudio sobre los efectos de la movilidad (estancia en el país de lengua meta) en la competencia oral y escrita de los estudiantes de inglés universitarios.
In this article we describe two different strategies for the automatic tagging of a Spanish diach... more In this article we describe two different strategies for the automatic tagging of a Spanish diachronic corpus involving the adaptation of existing NLP tools developed for modern Spanish. In the initial approach we follow a state-of-the-art strategy, which consists on standardizing the spelling and the lexicon. This approach boosts POS-tagging accuracy to 90, which represents a raw improvement of over 20% with respect to the results obtained without any pre-processing. In order to enable non-expert users in NLP to use this new resource, the corpus has been integrated into IAC (Corpora Interface Access). We discuss the shortcomings of the initial approach and propose a new one, which does not consist in adapting the source texts to the tagger, but rather in modifying the tagger for the direct treatment of the old variants.
Uploads
Papers by Josep M. Fontana