Papers by Afonso Canosa Rodrigues
XI Xornada de Usuarios de R en Galicia, 2024
Generating gazetteers, creating maps, and processing data for statistical analysis are common tas... more Generating gazetteers, creating maps, and processing data for statistical analysis are common tasks in the study of place names. Here we present a series of search and report functions (lists, cartography, and graphs) as well as examples of exploratory analyses obtained with the scripts specially designed to work with superestratistic toponyms from Gallaecia.
Dun poema as ardentes estrofas, 2024
Eduardo Pondal is one of the foundational figures of Galegan literary Resurgence in the 19th cent... more Eduardo Pondal is one of the foundational figures of Galegan literary Resurgence in the 19th century. His poetry creates a mythology that uses place names as the main resource to name semi-heroic, mythological characters (bards, fairies, heroines and heroes). This book chapter reviews previous studies on place names mentioned in Pondal's most important work, 'Queixumes do pinos'. The first part of the paper provides semantic, morpho-syntactic and graphical rules to define what is a place name. The second part reviews three different approaches used by critics of Pondal's work that focused on toponymy. First, an etymological classification is considered. Etymology is valid to explain why Pondal, inspired by Ossian's poems, chooses certain Galegan place names that instead of substratic have superstratic roots. Second, a limited typological taxonomy to classify the geographical types is mentioned and some problems studied (place names that refer to different geographical objects, for instance a river that is also a village). Finally, a classification that groups place names based on geographical areas (polygonal geo-reference) is given as the most accurate up to date. The paper concludes stating that o final classification of all place names would benefit from an ontology that groups the three classifications considered before.
This is a pre-print version. The published one may have small typographical changes and different page numbers. For the edited version (in Galegan-Portuguese):
Cousillas et al. 2014. Dun poema as ardentes estrofas. Carballo, Galiza: Espiral Maior.
X Xornada de usuarios de R en Galicia, 2023
An example on how cosine similarity can be used to search for semantic relations among toponyms a... more An example on how cosine similarity can be used to search for semantic relations among toponyms and their geographycal type. An R script serves as a tool to solve the whole procedure for a corpus in non-standard language (In Portuguese)
A similaridade do cosseno permite capturar relações semânticas entre termos. Nesta comunicação apresentamos um exemplo que mede a similaridade entre topónimos a partir das coocorrências com as classes a que pertencem dentro da tipologia geográfica. Um script em R serve como ferramenta para solucionar todo o procedimento. Palavras e frases chave: similaridade do cosseno, captura de relações semânticas, hiperonímia, hiponímia, entidades geográficas nomeadas, tipos geográficos
IX Xornadas de usuarios de R en Galicia, 2022
We introduce a formula and explain a script written in R that reorganizes the sentences of a corp... more We introduce a formula and explain a script written in R that reorganizes the sentences of a corpus according to their complexity. Syntactic complexity is here measured as longitude in the number of tokens of the sentece while Zipf's first law is used to grasp the semantic difficulty of the terms involved. (Text in Portuguese)
Acta Orientalia Academiae Scientiarum Hungaricae, 2021
The Mongolic term khaan ('king'), for which there is full correspondence, semantic and phonologic... more The Mongolic term khaan ('king'), for which there is full correspondence, semantic and phonological, in sixteenth century Portuguese cão, is used as a starting-point to identify the graphemes that correspond to several Mongolic consonants in place names transcribed in the chapters related to the Tartars in Fernão Mendes Pinto's Peregrinação (1614). With the deduced rules of pronunciation at hand, it is possible to establish new pairs of lexical correspondences and solve a brief lexicon extracted from the list of Tartar toponyms.
Linguamática, 2019
A Tool for Toponym Recognition in Medieval Documents
This paper (in Portuguese) describes a met... more A Tool for Toponym Recognition in Medieval Documents
This paper (in Portuguese) describes a method to build a tool aimed at recognizing geographical named entities in medieval texts. The new tool has been developed using the corresponding modules for contemporary languages contained in Linguakit, a suite of NLP tools. A collection of manually annotated corpora served as a resource to build a gazetteer of medieval toponyms and find patterns to improve and implement new rules for the recognition of place names. In addition to the gazetteer, a list of triggers was the most determinant factor to improve recall. Final adjustments considered the most frequent terms of the lexicon and grammatical contexts for geographical named entities. In the process of building a model of medieval language and a specific lexicon, the available tool can already be used to annotate texts and shows a significant improvement when compared with previous modules. However, most work remains to be done in terms of adding specific gazetteers for entities other than geographical.
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do Linguakit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
De Oriente a Ocidente: Estudos da Associação Internacional de Lusitanistas (vol. I, pp.11-34), 2019
Work on georeferencing Asian place names mentioned in Fernão Mendes Pinto's Peregrinação. Present... more Work on georeferencing Asian place names mentioned in Fernão Mendes Pinto's Peregrinação. Presented at the 12th Conference of the Associação Internacional de Lusitanistas held in Macau, July 2017.
As entidades geográficas mencionadas (EGM) são consideradas no Processamento da Linguagem Natural (PLN) como parte do problema de Reconhecimento e Classificação de entidades mencionadas (EM) para a anotação dos topónimos. Sabemos também que as entidades geográficas são objeto de atenção especial na análise geográfica de textos, particularmente na georreferenciação, entendida como a ligação entre a expressão do topónimo e o objeto geográfico, resolvida preferentemente por meio da obtenção de coordenadas. A importância de ambos os problemas, a anotação e a georreferenciação, faz com que se multiplique o número de soluções e aproximações. Nesta comunicação apresento a anotação e georreferenciação de EGM a partir do caso prático da Peregrinação de Fernão Mendes Pinto.
Diacritica, 2018
In order to annotate geographical named entities, gazetteers have to face ambiguities and context... more In order to annotate geographical named entities, gazetteers have to face ambiguities and contexts where the geographical value of a given expression is not clear. In this paper, an index of place names is used to examine the main problems encountered in the production of an annotated corpus of Mendes Pinto's Pilgrimage. The difficulties found serve to classify the types of errors that occur when the place name is solved by simple string match and introduce criteria for the identification of geographical entities, a task that should precede and has a direct impact on the results obtained in an automatic annotation approach.
Na anotação automática de entidades geográficas mencionadas, as listas especiali-zadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática. Palavras-chave: Entidades Geográficas Mencionadas. REM. Topónimos. Anotação de corpus. Corpus histórico.
7th Symposium on Languages, Applications and Technologies (SLATE 2018), 2018
A small corpus made of two historical texts provides an obvious observation for which the linguis... more A small corpus made of two historical texts provides an obvious observation for which the linguistic explanation is not so clear.
A bitext produced from a Portuguese historical text and its English translation, Fernão Mendes Pinto's Pilgrimage, serves as a case study to describe the creation of a parallel corpus and investigate which linguistic and textual units are the best indicators of alignability. The process of building the corpus goes through preparation of transcriptions, annotation, segmentation and sentence alignment. Once the bitext is ready, the corpus is used to inquire which units appear as more relevant to predict that both texts are parallel. From the largest content units, those of chapters, to sentences, word types, tokens and characters, the latest, despite being the unit with less textual and linguistic significance, were found to be the best indicator of both texts being alignable.
Tradterm, 2017
Term extraction or recognition searches a given corpus to provide a list of domain specific terms... more Term extraction or recognition searches a given corpus to provide a list of domain specific terms for further use in more advanced tasks as in terminology and ontology building. Several statistical measures and Natural Language Processing techniques have been researched to improve precision of retrieved lists. However, to keep recall high, lists contain a number of false positives. To validate candidates as true positives in the domain, terms have to be manually evaluated or automatically checked against external resources such as specialized glossaries. Starting with a baseline of 50 candidate terms with 52% precision, we perform a series of experiments to show that a lexical knowledge base can significantly improve glossary performance. Furthermore, using a fuzzy lexical base, words clustered by a semantic association value, we research cutting points to reach 100% rates for either precision or recall for the baseline list, while keeping F-Measure > 80%, achieving 90% as best result. We conclude that, considering further research for limits and different case scenarios is also needed, a fuzzy lexical base can improve current state-of-the art approaches in automatic term extraction .
A extração ou reconhecimento de termos pesquisa um corpus para prover uma lista de termos específicos de domínio a fim de ser usada em trabalhos mais avançados tais como a construção de terminologias e ontologias. Tanto medidas estatísticas quanto técnicas do Processamento da Linguagem Natural (PLN) têm sido investigadas para melhorar o desempenho na precisão das listas recuperadas. Não obstante, para manter a abrangência alta, as listas contêm falsos positivos. Para validar os candidatos como verdadeiros positivos, os termos têm de ser avaliados quer manualmente, quer automaticamente, por contraste com recursos externos, nomeadamente glossários específicos. Apresentamos uma série de experiências que mostram como uma base de conhecimento lexical pode melhorar o desempenho destes glossários de modo significativo. Partimos de uma lista de 50 candidatos a termos de domínio com precisão de 52%. Por meio da uma base lexical difusa, em que as palavras são agrupadas com um valor de associação semântica, achamos valores de corte para atingir percentagens de 100% tanto na precisão quanto na abrangência sobre a lista de partida, mantendo o valor da medida-F > 80%, com melhor resultado em 90%. Concluímos que, considerando que é necessário mais trabalho na pesquisa de limites e diferentes cenários, uma base lexical difusa pode melhorar o estado da arte das abordagens convencionais da extração automática de termos.
Fluxos & Riscos, 2017
There have been different interdisciplinary approaches to recreating the routes and locations in ... more There have been different interdisciplinary approaches to recreating the routes and locations in Fernão Mendes Pinto's travels. Until now, none has been able to provide a georeference for all the areas involved. In this article we combine techniques from Natural Language Processing (NLP) and Geographic Information Systems (GIS) to produce an index of geographically named entities. After careful comparative analysis of specialized works, mainly from the domain of history and historical geography, our index provides an exact georeference for all locations that were previously known and show no contradiction with Pinto's description. For the rest, we build an initial model that solves a relative georeference where every single entity is assigned a geographical feature and is linked to a holonym as a part to which it belongs. The resulting taxonomy is further processed as an ontology and stored along with additional data from corpus analysis in a relational database. We illustrate methods and results with examples, describe the final products, and conclude more interdisciplinary analysis is required to further develop the relative georeferences.
A geografia da Peregrinação de Fernão Mendes Pinto tem sido abordada desde aproximações interdisciplinares com a intenção de reconstruir itinerários e cenários. Nenhuma obra conseguiu, de momento, referenciar toda a geografia da Peregrinação para todas as áreas. Neste artigo descreve-se mais um contributo que combina técnicas do Processamento da Linguagem Natural (PLN) com Sistemas de Informação Geográfica (SIG) para elaborar um novo índice de entidades geográficas mencionadas. A partir da análise comparada de obras especializadas, principalmente no domínio da história e da geografia histórica, o índice oferece uma georreferência exata para todas as localidades que, sendo conhecidas previamente, não apresentam contradição com a descrição dada por Pinto. Configuramos um modelo em que cada entidade é classificada segundo um tipo geográfico físico ou administrativo e ligada com um holónimo na relação Parte_de à qual pertence. A taxonomia resultante é processada numa ontologia e guardada junto de dados adicionais do corpus numa base de dados relacional. Ilustram-se os métodos e resultados com exemplos, descrevem-se os produtos finais e conclui-se ser necessária uma maior análise interdisciplinar para mais desenvolver as georreferências relativas.
Fluxos & Riscos, 2017
The “convergent” research has advanced with notable success in the life sciences, physical scienc... more The “convergent” research has advanced with notable success in the life sciences, physical sciences and engineering, as it can be concluded from the joint report of MIT-AAAS, available for online reference at http://news.mit.edu/2011/convergence-0104 containing encomiastic references to “The Third Revolution: The Convergence of the Life Sciences, Physical Sciences and Engineering”.
It is desirable that the realm of the Social Sciences breaks out of its departmental culture which enhances the weaknesses analysed by Thomas S. Kuhn, another north-American and Harvard scholar, in his seminal research published as The Structure of Scientific Revolutions (1962) exposing the subjectivities that blocked the potential for convergence and innovation in Social Sciences.
The “convergence” that is recommended does not require that scholars abandon their specializations, but the emphasis is on a dialogue between scholars of different scientific areas based on mutual respect and curiosity, aimed ultimately at deepening the grasp of one’s own areas of specialization. It is hoped that confrontation and cross-examination of concepts, methods of gathering and analysing data, technical perspectives and application strategies, can result in finding correlations and ways of solving common problems.
The culture of convergence demands individual efforts and institutional efforts, as well as national and international policies. It is viewed as timely to avoid wastage of limited funding in an effective manner. This is clear from the most recent ruling of the Portuguese Foundation for Science and Technologies in preparation for the forthcoming Evaluation and Pluriannual Funding of the R&D units. It recommends to the existing research centres to re-structure themselves into larger units / consortia to maximize human and financial resources, but without losing sight of the academic objectives. The present issue of the journal Fluxes & Risks sought to anticipate this challenge and prepare the CPES to undertake suitable steps in this re-structuring process, ensuring the continuity of its heritage through a culture of convergence.
Boletim da Academia Galega da Língua Portuguesa, 2015
The study of cartography and place names of early transoceanic navigations has produced a well es... more The study of cartography and place names of early transoceanic navigations has produced a well established tradition of research, Fernão Mendes Pinto's Peregrinação having been critically analysed and considered as a source for the geography and history of Asia in the sixteenth century. This paper introduces a new catalogue of place and inhabitant names and discusses the classification and selection of its entries. Both direct and indirect geographical entities are accepted as input and inhabitant names are selected with the same value as place names to produce a map of geo-referenced entities. The final result is intended to serve as a starting point to access Mendes Pinto's work as a geographical report as well as a visual guide for those who prefer to follow the narrative of a literary masterpiece.
O estudo da cartografia e toponímia das primeiras navegações transoceânicas tem produzido uma sólida tradição investigadora que pesquisou a Peregrinação desde uma óptica crítica, mas também vindicando-a como fonte para a geografia e história da Ásia do século XVI. Este artigo apresenta um novo catálogo de topónimos e gentílicos e analisa a classificação e selecção das suas entradas. Consideramos tanto as entidades geográficas directas como as indirectas e incluímos os gentílicos com o mesmo valor que os topônimos para produzirmos um mapa de entidades georreferenciadas. O resultado final pretende servir de ponto inicial para aceder à obra de Mendes Pinto como um informe geográfico e, ao mesmo tempo, oferecer uma guia visual para quem preferir seguir a narrativa de um clássico da literatura.
Veredas, 2013
External documentation concerning the life of Mendes Pinto is studied to extract the most promine... more External documentation concerning the life of Mendes Pinto is studied to extract the most prominent descriptive traits of the writer from each single researched document. Documentation is divided in two periods: First, the span of his travels in Asia; second, the remainder of his life after his return to Europe. For each period a general profile is drawn. Finally, an overall conclusion concerning the biography of Mendes Pinto and how this affects Peregrinação's genre is presented.
Apresentamos uma análise da documentação externa a Mendes Pinto dividida em dois períodos: o referido à sua estadia em Ásia e o da sua etapa final em Europa. De cada documento extraímos as descrições particulares de Mendes Pinto para, no seu conjunto, desenharmos um perfil genérico referido a cada um dos períodos. Contrastamos pontos que foram objeto de especial atenção pela crítica com o texto da Peregrinação para concluirmos com a nossa própria valoização da obra de Pinto como um texto com o valor de relatório virado para a provisão de informação geográfica. Adicionamos um apêndice cronológico em que destacamos os dados que permitem contrastar a informação da própria Peregrinação com fontes alternativas.
Abstracts by Afonso Canosa Rodrigues
16th ASEF Classroom Network Conference Leading Change: Digital Transformation of Education in the Era of AI 13 & 15 November 2023. Ljubljana, Slovenia, 2023
This project aims to have an impact on the way literature is taught in the classroom by providin... more This project aims to have an impact on the way literature is taught in the classroom by providing a new way of approaching the literary text. Students will discuss the novel (in our caseTess of the D’Urbervilles written by Thomas Hardy, but the ITP can be easily adapted to any other piece of literature) to improve their oral and written skills while using student-focused AIED (Holmes & Tuomi, 2022). In seven sessions, students will select information on the cultural, historical and social context of the literary period of the chosen literary work and its author. The selected sources will be used to feed a domain specific chatbot that will answer questions relevant to the understanding of the novel, the novel itself, its author and the cultural framework in which it was produced. Once the novel is read and understood, students will choose characters and locations and describe them with their own words to produce portraits and scenarios with a text-to-image AI generator. Next step will be writing a dialogue between (or among) selected characters. A text-to-speech tool will generate audio according to students preferences. The final result will be a video that uses the AI generated images and recorded dialogues. In the final session, students will compare their own work in the most difficult tasks with that obtained from a chatbot to reflect critically on the advantages and potential disadvantages of AI tools.
Techling 2019 : IV International Conference Language, Linguistics and Technology, 2019
A partir de uma taxonomia e axiomas para as relações, uma ontologia classifica, hierarquiza e rel... more A partir de uma taxonomia e axiomas para as relações, uma ontologia classifica, hierarquiza e relaciona objetos de tal maneira que se pode chegar a realizar inferências e predições. Uma ontologia é, também, uma abstração que representa um mundo em particular e, mesmo tendo uma base empírica e objetiva, a seleção do vocabulário, a ordenação hierárquica e as relações utilizadas têm uma natureza subjectiva, por quanto são o resultado de uma escolha (guiada por critérios mais ou menos objetivos, como pode ser a eficiência). A necessidade de estandardização favorece a implementação de ontologias prévias, que aforram o trabalho de desenho e garantem uma maior difusão dos resultados. Porém, no trabalho com corpora, especialmente os históricos, a particularidade dos vocabulários (termos inusuais ou com valores semânticos e representações gráficas distintas às do padrão atual) e as próprias diferenças na classificação das entidades geográficas (com classes menos comuns ou inexistentes hoje em dia e objetos mais difusos a respeito dos seus homólogos actuais) favorece a criação de taxonomias específicas. Nesta comunicação apresenta-se o trabalho de elaboração de uma taxonomia para a classificação dos topónimos de um corpus histórico (Peregrinação de Fernão Mendes Pinto, 1614) a partir de uma ontologia prévia (abordagem topo para a base) utilizada na ordenação de objetos geográficos contemporâneos (GeoNames) que serve para criar as categorias no topo da hierarquia, para finalmente gerar um produto híbrido que incorpora o vocabulário do domínio geográfico obtido da inspecão de concordâncias das entidades geográficas mencionadas no corpus (abordagem ascendente). A taxonomia resultante instância as entidades geográficas mencionadas conforme a um tipo geográfico (relações de hiponímia) que se acrescenta na ontologia com a relação georreferenciadora é_Parte_de e a sua inversa, Contém, correspondentes às relações semânticas de meroníma e holoníma.
Speaking of Location, 14th International Conference on Spatial Information Theory, Regensburg, Germany, 2019
A typical approach for place-name geo-referencing takes an annotated geographical named entity, l... more A typical approach for place-name geo-referencing takes an annotated geographical named entity, looks it up in a gazetteer and disambiguates candidates through textual and spatial analysis using either data inferred from the corpus or external resources, or both. The geo-reference is considered solved when its coordinates are found. However, a place-name may be unknown in terms of a precise location and yet spatial relations could be derived from its textual co-occurrences to narrow down the number of possible referents. This type of spatial information is particularly useful when the text has a high rate of unknown named entities that are difficult to retrieve in gazetteers, as it is the case of Fernão Mendes Pinto's Peregrinação, a collection of travels in Asia written in Portuguese in the 16th century.
With the aim to study the geographical value of Pinto's travels, entities with known coordinates were linked to an open global database (Geonames) to retrieve further geographical data. Those place-names that could not be located were processed as relative to a known entity. All entities were assigned to a geographical type and organized in an ontology to refine their relations. As one of the final products, a web environment processes the corpus and databases to provide a structured definition of each entity, its occurrences in the corpus, a contemporary name and coordinates when available, and relations with other entities (at least its parent, though also spatial relations of the type Distance_to when available). For annotation, standard statistical and rule-based NERC tools were applied, achieving significant results that justify automatic annotation as the starting point, though manual revision is needed to achieve the quality of a gold standard. Geo-referencing was done by expert research. Two semantic relations were considered in the ontology: hyponymy (to solve the geographical type) and meronymy (to solve the parent entity). Machine learning approaches were explored to find examples of relations among entities and geographical features, results being significant only for those entities with highest frequencies.
Working with historical texts written in non-standard language limits not only the availability of tools for NLP, but the use of machine learning methods is also challenged by the statistical relevance of the phenomena under study. In order to solve a semantic relation by means of quantitative methods as in distributional semantics, a certain threshold of occurrences has to be reached. Is a rule-based model the only (or the most efficient) solution?
XII Congresso da AIL, Macau 2017
Na resolução do objeto geográfico das entidades geográficas mencionadas na Peregrinação distingui... more Na resolução do objeto geográfico das entidades geográficas mencionadas na Peregrinação distinguimos dois tipos: aquelas que são conhecidas por coordenadas e aquelas outras cujo referente é descrito através de entidades pivô (mais abrangentes ou definidoras de um centro ou trajetória). No primeiro grupo, as coordenadas apontam para um ponto, porém, nem sempre resolvem por completo o referente, como é o caso das entidades que se correspondem com linhas (ex. rios e costas) e polígonos (ex. administrações, ilhas, mares). No segundo, as entidades podem ser descritas de modo muito diverso, para o caso particular da Peregrinação as relações que anotamos como mais importantes foram: proximidade, distância (considerando transporte, tempo decorrido ou léguas), direção e pertença, sempre relativamente a outro objeto geográfico. Para a sistematização do conjunto elaboramos um esquema baseado num conceito que descreve a entidade em termos de um tipo geográfico (físico ou administrativo) e um holónimo que a abrange (assim Macao é um porto parte da China). Deste modo todas as entidades ficam referenciadas como mínimo relativamente a outra entidade à qual pertencem. Declarado o modelo, as entidades são resolvidas a partir do contraste da descrição no corpus com um aparato crítico procedente de estudos históricos e geográficos. Para facilitar a análise, um corpus anotado integra os dados do estudo crítico com as concordâncias das entidades mencionadas. O corpus é também processado para análise de frequências. Todos os dados, tanto geográficos como textuais, são recolhidos numa base de dados relacional. Nesta fase de estudo, em que apenas as entidades sem discrepâncias no estudo crítico são consideradas como sendo resolvidas, 40% ficam classificadas como georreferenciadas por conhecimento prévio (isto é, por coordenadas recuperadas pela pesquisa do topónimo em fontes externas à Peregrinação) e 60% só descritas conforme ao modelo de georreferência relativa. Para além da distinção epistemológica, os dois grupos mostram também diferenças na distribuição espacial das entidades e os seus atributos básicos. Quanto às variáveis de corpus, encontramos uma correlação entre a frequência e o tipo de georreferência. Assim, as entidades georreferenciadas por coordenadas supõem apenas 40% dos tipos únicos do corpus, porém, representam 80% das ocorrências totais de entidades mencionadas. Isto é, as entidades menos conhecidas, 60%, são mencionadas apenas 20% das vezes.
IV Congresso Internacional de Linguística Histórica, Lisboa, 2017
Nos capítulos 117 a 127 da Peregrinação, Fernão Mendes Pinto (1614) descreve a passagem pelo nort... more Nos capítulos 117 a 127 da Peregrinação, Fernão Mendes Pinto (1614) descreve a passagem pelo norte da China e terras dos tártaros, com quem convive junto com um grupo de portugueses até que, como recompensa pelos serviços prestados, são conduzidos pela via fluvial até ao mar. Ao tratar dos tártaros, Pinto refere nomes próprios e mesmo orações na língua usada na corte e invocações religiosas, que também traduz para o português. Ainda que a importância da Peregrinação foi logo advertida por referentes da geografia descritiva como Purchas (1625, vol. 3, pp. 251-281), que integrou Pinto na sua coleção de viagens mesmo antes da primeira tradução íntegra para o inglês de Henry Cogan (Pinto, 1653), a presença mesma destas transcrições na língua asiática original, não decifradas até a atualidade, fez com que a crítica mais contemporânea tivesse dificuldades na interpretação desta passagem (Alves, 2010). Com o objetivo de contribuir para uma melhor compreensão do relatório redigido por Pinto, preparamos um corpus que chamamos da Tartária, para estudarmos termos cuja tradução para o português é dada ou inferível pela descrição e podemos comparar com formas reconhecíveis no mongol atual. Nesta comunicação pretendemos mostrar que a principal dificuldade para iniciar a análise comparativa não é tanto a língua mongol, quanto o modo em que se está a ler o escrito na atualidade. Ao transcrever fenómenos fonéticos ausentes no português, Pinto tem de procurar equivalências gráficas, influindo na seleção das grafias tanto elementos de fonética acústica e da perceção quanto a codificação gráfica e, possivelmente, mesmo a variação dialectal. Como proposta e exemplo para mostrar a evidência das correspondências gráficas, usamos um termo que aparece com frequência no corpus, para o qual Pinto oferece não só descrições, mas tradução direta: o nome comum mongol хаан, transcrito khaan, com o significado de rei, com morfemas comparáveis nas formas Tuymicão, Tibremvucão e Abicau. Analisamos a variação da representação da terminação nasal com a transcrição oferecida na edição em inglês (Pinto, 1653) para concluirmos que possivelmente haja um intento de padronização editorial que, não obstante, não impede estabelecer equivalências, achando uma correspondência com o mongol não só nas unidades fonéticas, vocálicas e consonânticas, mas também na morfossintaxe da frase nominal.
Presentations by Afonso Canosa Rodrigues
16th ASEF Classroom Network Conference Leading Change: Digital Transformation of Education in the Era of AI 13 & 15 November 2023. Ljubljana, Slovenia, 2023
Presentation of a ITP to work on a novel for students of ESL at the 16th ASEF Classroom Network C... more Presentation of a ITP to work on a novel for students of ESL at the 16th ASEF Classroom Network Conference Leading Change: Digital Transformation of Education in the Era of AI. 13 & 15 November 2023. Ljubljana, Slovenia
Uploads
Papers by Afonso Canosa Rodrigues
This is a pre-print version. The published one may have small typographical changes and different page numbers. For the edited version (in Galegan-Portuguese):
Cousillas et al. 2014. Dun poema as ardentes estrofas. Carballo, Galiza: Espiral Maior.
A similaridade do cosseno permite capturar relações semânticas entre termos. Nesta comunicação apresentamos um exemplo que mede a similaridade entre topónimos a partir das coocorrências com as classes a que pertencem dentro da tipologia geográfica. Um script em R serve como ferramenta para solucionar todo o procedimento. Palavras e frases chave: similaridade do cosseno, captura de relações semânticas, hiperonímia, hiponímia, entidades geográficas nomeadas, tipos geográficos
This paper (in Portuguese) describes a method to build a tool aimed at recognizing geographical named entities in medieval texts. The new tool has been developed using the corresponding modules for contemporary languages contained in Linguakit, a suite of NLP tools. A collection of manually annotated corpora served as a resource to build a gazetteer of medieval toponyms and find patterns to improve and implement new rules for the recognition of place names. In addition to the gazetteer, a list of triggers was the most determinant factor to improve recall. Final adjustments considered the most frequent terms of the lexicon and grammatical contexts for geographical named entities. In the process of building a model of medieval language and a specific lexicon, the available tool can already be used to annotate texts and shows a significant improvement when compared with previous modules. However, most work remains to be done in terms of adding specific gazetteers for entities other than geographical.
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do Linguakit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
As entidades geográficas mencionadas (EGM) são consideradas no Processamento da Linguagem Natural (PLN) como parte do problema de Reconhecimento e Classificação de entidades mencionadas (EM) para a anotação dos topónimos. Sabemos também que as entidades geográficas são objeto de atenção especial na análise geográfica de textos, particularmente na georreferenciação, entendida como a ligação entre a expressão do topónimo e o objeto geográfico, resolvida preferentemente por meio da obtenção de coordenadas. A importância de ambos os problemas, a anotação e a georreferenciação, faz com que se multiplique o número de soluções e aproximações. Nesta comunicação apresento a anotação e georreferenciação de EGM a partir do caso prático da Peregrinação de Fernão Mendes Pinto.
Na anotação automática de entidades geográficas mencionadas, as listas especiali-zadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática. Palavras-chave: Entidades Geográficas Mencionadas. REM. Topónimos. Anotação de corpus. Corpus histórico.
A bitext produced from a Portuguese historical text and its English translation, Fernão Mendes Pinto's Pilgrimage, serves as a case study to describe the creation of a parallel corpus and investigate which linguistic and textual units are the best indicators of alignability. The process of building the corpus goes through preparation of transcriptions, annotation, segmentation and sentence alignment. Once the bitext is ready, the corpus is used to inquire which units appear as more relevant to predict that both texts are parallel. From the largest content units, those of chapters, to sentences, word types, tokens and characters, the latest, despite being the unit with less textual and linguistic significance, were found to be the best indicator of both texts being alignable.
A extração ou reconhecimento de termos pesquisa um corpus para prover uma lista de termos específicos de domínio a fim de ser usada em trabalhos mais avançados tais como a construção de terminologias e ontologias. Tanto medidas estatísticas quanto técnicas do Processamento da Linguagem Natural (PLN) têm sido investigadas para melhorar o desempenho na precisão das listas recuperadas. Não obstante, para manter a abrangência alta, as listas contêm falsos positivos. Para validar os candidatos como verdadeiros positivos, os termos têm de ser avaliados quer manualmente, quer automaticamente, por contraste com recursos externos, nomeadamente glossários específicos. Apresentamos uma série de experiências que mostram como uma base de conhecimento lexical pode melhorar o desempenho destes glossários de modo significativo. Partimos de uma lista de 50 candidatos a termos de domínio com precisão de 52%. Por meio da uma base lexical difusa, em que as palavras são agrupadas com um valor de associação semântica, achamos valores de corte para atingir percentagens de 100% tanto na precisão quanto na abrangência sobre a lista de partida, mantendo o valor da medida-F > 80%, com melhor resultado em 90%. Concluímos que, considerando que é necessário mais trabalho na pesquisa de limites e diferentes cenários, uma base lexical difusa pode melhorar o estado da arte das abordagens convencionais da extração automática de termos.
A geografia da Peregrinação de Fernão Mendes Pinto tem sido abordada desde aproximações interdisciplinares com a intenção de reconstruir itinerários e cenários. Nenhuma obra conseguiu, de momento, referenciar toda a geografia da Peregrinação para todas as áreas. Neste artigo descreve-se mais um contributo que combina técnicas do Processamento da Linguagem Natural (PLN) com Sistemas de Informação Geográfica (SIG) para elaborar um novo índice de entidades geográficas mencionadas. A partir da análise comparada de obras especializadas, principalmente no domínio da história e da geografia histórica, o índice oferece uma georreferência exata para todas as localidades que, sendo conhecidas previamente, não apresentam contradição com a descrição dada por Pinto. Configuramos um modelo em que cada entidade é classificada segundo um tipo geográfico físico ou administrativo e ligada com um holónimo na relação Parte_de à qual pertence. A taxonomia resultante é processada numa ontologia e guardada junto de dados adicionais do corpus numa base de dados relacional. Ilustram-se os métodos e resultados com exemplos, descrevem-se os produtos finais e conclui-se ser necessária uma maior análise interdisciplinar para mais desenvolver as georreferências relativas.
It is desirable that the realm of the Social Sciences breaks out of its departmental culture which enhances the weaknesses analysed by Thomas S. Kuhn, another north-American and Harvard scholar, in his seminal research published as The Structure of Scientific Revolutions (1962) exposing the subjectivities that blocked the potential for convergence and innovation in Social Sciences.
The “convergence” that is recommended does not require that scholars abandon their specializations, but the emphasis is on a dialogue between scholars of different scientific areas based on mutual respect and curiosity, aimed ultimately at deepening the grasp of one’s own areas of specialization. It is hoped that confrontation and cross-examination of concepts, methods of gathering and analysing data, technical perspectives and application strategies, can result in finding correlations and ways of solving common problems.
The culture of convergence demands individual efforts and institutional efforts, as well as national and international policies. It is viewed as timely to avoid wastage of limited funding in an effective manner. This is clear from the most recent ruling of the Portuguese Foundation for Science and Technologies in preparation for the forthcoming Evaluation and Pluriannual Funding of the R&D units. It recommends to the existing research centres to re-structure themselves into larger units / consortia to maximize human and financial resources, but without losing sight of the academic objectives. The present issue of the journal Fluxes & Risks sought to anticipate this challenge and prepare the CPES to undertake suitable steps in this re-structuring process, ensuring the continuity of its heritage through a culture of convergence.
O estudo da cartografia e toponímia das primeiras navegações transoceânicas tem produzido uma sólida tradição investigadora que pesquisou a Peregrinação desde uma óptica crítica, mas também vindicando-a como fonte para a geografia e história da Ásia do século XVI. Este artigo apresenta um novo catálogo de topónimos e gentílicos e analisa a classificação e selecção das suas entradas. Consideramos tanto as entidades geográficas directas como as indirectas e incluímos os gentílicos com o mesmo valor que os topônimos para produzirmos um mapa de entidades georreferenciadas. O resultado final pretende servir de ponto inicial para aceder à obra de Mendes Pinto como um informe geográfico e, ao mesmo tempo, oferecer uma guia visual para quem preferir seguir a narrativa de um clássico da literatura.
Apresentamos uma análise da documentação externa a Mendes Pinto dividida em dois períodos: o referido à sua estadia em Ásia e o da sua etapa final em Europa. De cada documento extraímos as descrições particulares de Mendes Pinto para, no seu conjunto, desenharmos um perfil genérico referido a cada um dos períodos. Contrastamos pontos que foram objeto de especial atenção pela crítica com o texto da Peregrinação para concluirmos com a nossa própria valoização da obra de Pinto como um texto com o valor de relatório virado para a provisão de informação geográfica. Adicionamos um apêndice cronológico em que destacamos os dados que permitem contrastar a informação da própria Peregrinação com fontes alternativas.
Abstracts by Afonso Canosa Rodrigues
With the aim to study the geographical value of Pinto's travels, entities with known coordinates were linked to an open global database (Geonames) to retrieve further geographical data. Those place-names that could not be located were processed as relative to a known entity. All entities were assigned to a geographical type and organized in an ontology to refine their relations. As one of the final products, a web environment processes the corpus and databases to provide a structured definition of each entity, its occurrences in the corpus, a contemporary name and coordinates when available, and relations with other entities (at least its parent, though also spatial relations of the type Distance_to when available). For annotation, standard statistical and rule-based NERC tools were applied, achieving significant results that justify automatic annotation as the starting point, though manual revision is needed to achieve the quality of a gold standard. Geo-referencing was done by expert research. Two semantic relations were considered in the ontology: hyponymy (to solve the geographical type) and meronymy (to solve the parent entity). Machine learning approaches were explored to find examples of relations among entities and geographical features, results being significant only for those entities with highest frequencies.
Working with historical texts written in non-standard language limits not only the availability of tools for NLP, but the use of machine learning methods is also challenged by the statistical relevance of the phenomena under study. In order to solve a semantic relation by means of quantitative methods as in distributional semantics, a certain threshold of occurrences has to be reached. Is a rule-based model the only (or the most efficient) solution?
Presentations by Afonso Canosa Rodrigues
This is a pre-print version. The published one may have small typographical changes and different page numbers. For the edited version (in Galegan-Portuguese):
Cousillas et al. 2014. Dun poema as ardentes estrofas. Carballo, Galiza: Espiral Maior.
A similaridade do cosseno permite capturar relações semânticas entre termos. Nesta comunicação apresentamos um exemplo que mede a similaridade entre topónimos a partir das coocorrências com as classes a que pertencem dentro da tipologia geográfica. Um script em R serve como ferramenta para solucionar todo o procedimento. Palavras e frases chave: similaridade do cosseno, captura de relações semânticas, hiperonímia, hiponímia, entidades geográficas nomeadas, tipos geográficos
This paper (in Portuguese) describes a method to build a tool aimed at recognizing geographical named entities in medieval texts. The new tool has been developed using the corresponding modules for contemporary languages contained in Linguakit, a suite of NLP tools. A collection of manually annotated corpora served as a resource to build a gazetteer of medieval toponyms and find patterns to improve and implement new rules for the recognition of place names. In addition to the gazetteer, a list of triggers was the most determinant factor to improve recall. Final adjustments considered the most frequent terms of the lexicon and grammatical contexts for geographical named entities. In the process of building a model of medieval language and a specific lexicon, the available tool can already be used to annotate texts and shows a significant improvement when compared with previous modules. However, most work remains to be done in terms of adding specific gazetteers for entities other than geographical.
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do Linguakit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
As entidades geográficas mencionadas (EGM) são consideradas no Processamento da Linguagem Natural (PLN) como parte do problema de Reconhecimento e Classificação de entidades mencionadas (EM) para a anotação dos topónimos. Sabemos também que as entidades geográficas são objeto de atenção especial na análise geográfica de textos, particularmente na georreferenciação, entendida como a ligação entre a expressão do topónimo e o objeto geográfico, resolvida preferentemente por meio da obtenção de coordenadas. A importância de ambos os problemas, a anotação e a georreferenciação, faz com que se multiplique o número de soluções e aproximações. Nesta comunicação apresento a anotação e georreferenciação de EGM a partir do caso prático da Peregrinação de Fernão Mendes Pinto.
Na anotação automática de entidades geográficas mencionadas, as listas especiali-zadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática. Palavras-chave: Entidades Geográficas Mencionadas. REM. Topónimos. Anotação de corpus. Corpus histórico.
A bitext produced from a Portuguese historical text and its English translation, Fernão Mendes Pinto's Pilgrimage, serves as a case study to describe the creation of a parallel corpus and investigate which linguistic and textual units are the best indicators of alignability. The process of building the corpus goes through preparation of transcriptions, annotation, segmentation and sentence alignment. Once the bitext is ready, the corpus is used to inquire which units appear as more relevant to predict that both texts are parallel. From the largest content units, those of chapters, to sentences, word types, tokens and characters, the latest, despite being the unit with less textual and linguistic significance, were found to be the best indicator of both texts being alignable.
A extração ou reconhecimento de termos pesquisa um corpus para prover uma lista de termos específicos de domínio a fim de ser usada em trabalhos mais avançados tais como a construção de terminologias e ontologias. Tanto medidas estatísticas quanto técnicas do Processamento da Linguagem Natural (PLN) têm sido investigadas para melhorar o desempenho na precisão das listas recuperadas. Não obstante, para manter a abrangência alta, as listas contêm falsos positivos. Para validar os candidatos como verdadeiros positivos, os termos têm de ser avaliados quer manualmente, quer automaticamente, por contraste com recursos externos, nomeadamente glossários específicos. Apresentamos uma série de experiências que mostram como uma base de conhecimento lexical pode melhorar o desempenho destes glossários de modo significativo. Partimos de uma lista de 50 candidatos a termos de domínio com precisão de 52%. Por meio da uma base lexical difusa, em que as palavras são agrupadas com um valor de associação semântica, achamos valores de corte para atingir percentagens de 100% tanto na precisão quanto na abrangência sobre a lista de partida, mantendo o valor da medida-F > 80%, com melhor resultado em 90%. Concluímos que, considerando que é necessário mais trabalho na pesquisa de limites e diferentes cenários, uma base lexical difusa pode melhorar o estado da arte das abordagens convencionais da extração automática de termos.
A geografia da Peregrinação de Fernão Mendes Pinto tem sido abordada desde aproximações interdisciplinares com a intenção de reconstruir itinerários e cenários. Nenhuma obra conseguiu, de momento, referenciar toda a geografia da Peregrinação para todas as áreas. Neste artigo descreve-se mais um contributo que combina técnicas do Processamento da Linguagem Natural (PLN) com Sistemas de Informação Geográfica (SIG) para elaborar um novo índice de entidades geográficas mencionadas. A partir da análise comparada de obras especializadas, principalmente no domínio da história e da geografia histórica, o índice oferece uma georreferência exata para todas as localidades que, sendo conhecidas previamente, não apresentam contradição com a descrição dada por Pinto. Configuramos um modelo em que cada entidade é classificada segundo um tipo geográfico físico ou administrativo e ligada com um holónimo na relação Parte_de à qual pertence. A taxonomia resultante é processada numa ontologia e guardada junto de dados adicionais do corpus numa base de dados relacional. Ilustram-se os métodos e resultados com exemplos, descrevem-se os produtos finais e conclui-se ser necessária uma maior análise interdisciplinar para mais desenvolver as georreferências relativas.
It is desirable that the realm of the Social Sciences breaks out of its departmental culture which enhances the weaknesses analysed by Thomas S. Kuhn, another north-American and Harvard scholar, in his seminal research published as The Structure of Scientific Revolutions (1962) exposing the subjectivities that blocked the potential for convergence and innovation in Social Sciences.
The “convergence” that is recommended does not require that scholars abandon their specializations, but the emphasis is on a dialogue between scholars of different scientific areas based on mutual respect and curiosity, aimed ultimately at deepening the grasp of one’s own areas of specialization. It is hoped that confrontation and cross-examination of concepts, methods of gathering and analysing data, technical perspectives and application strategies, can result in finding correlations and ways of solving common problems.
The culture of convergence demands individual efforts and institutional efforts, as well as national and international policies. It is viewed as timely to avoid wastage of limited funding in an effective manner. This is clear from the most recent ruling of the Portuguese Foundation for Science and Technologies in preparation for the forthcoming Evaluation and Pluriannual Funding of the R&D units. It recommends to the existing research centres to re-structure themselves into larger units / consortia to maximize human and financial resources, but without losing sight of the academic objectives. The present issue of the journal Fluxes & Risks sought to anticipate this challenge and prepare the CPES to undertake suitable steps in this re-structuring process, ensuring the continuity of its heritage through a culture of convergence.
O estudo da cartografia e toponímia das primeiras navegações transoceânicas tem produzido uma sólida tradição investigadora que pesquisou a Peregrinação desde uma óptica crítica, mas também vindicando-a como fonte para a geografia e história da Ásia do século XVI. Este artigo apresenta um novo catálogo de topónimos e gentílicos e analisa a classificação e selecção das suas entradas. Consideramos tanto as entidades geográficas directas como as indirectas e incluímos os gentílicos com o mesmo valor que os topônimos para produzirmos um mapa de entidades georreferenciadas. O resultado final pretende servir de ponto inicial para aceder à obra de Mendes Pinto como um informe geográfico e, ao mesmo tempo, oferecer uma guia visual para quem preferir seguir a narrativa de um clássico da literatura.
Apresentamos uma análise da documentação externa a Mendes Pinto dividida em dois períodos: o referido à sua estadia em Ásia e o da sua etapa final em Europa. De cada documento extraímos as descrições particulares de Mendes Pinto para, no seu conjunto, desenharmos um perfil genérico referido a cada um dos períodos. Contrastamos pontos que foram objeto de especial atenção pela crítica com o texto da Peregrinação para concluirmos com a nossa própria valoização da obra de Pinto como um texto com o valor de relatório virado para a provisão de informação geográfica. Adicionamos um apêndice cronológico em que destacamos os dados que permitem contrastar a informação da própria Peregrinação com fontes alternativas.
With the aim to study the geographical value of Pinto's travels, entities with known coordinates were linked to an open global database (Geonames) to retrieve further geographical data. Those place-names that could not be located were processed as relative to a known entity. All entities were assigned to a geographical type and organized in an ontology to refine their relations. As one of the final products, a web environment processes the corpus and databases to provide a structured definition of each entity, its occurrences in the corpus, a contemporary name and coordinates when available, and relations with other entities (at least its parent, though also spatial relations of the type Distance_to when available). For annotation, standard statistical and rule-based NERC tools were applied, achieving significant results that justify automatic annotation as the starting point, though manual revision is needed to achieve the quality of a gold standard. Geo-referencing was done by expert research. Two semantic relations were considered in the ontology: hyponymy (to solve the geographical type) and meronymy (to solve the parent entity). Machine learning approaches were explored to find examples of relations among entities and geographical features, results being significant only for those entities with highest frequencies.
Working with historical texts written in non-standard language limits not only the availability of tools for NLP, but the use of machine learning methods is also challenged by the statistical relevance of the phenomena under study. In order to solve a semantic relation by means of quantitative methods as in distributional semantics, a certain threshold of occurrences has to be reached. Is a rule-based model the only (or the most efficient) solution?
Presentation for the 10th Conference of R users in Galiza. University of Santiago de Compostela, 10th of October 2023.
An example on how cossine similarity can be used to search for semantic relations among toponyms and their geographycal type. An R script serves as a tool to solve the whole procedure for a corpus in non-standard language (In Portuguese)
A similaridade do cosseno permite capturar relações semânticas entre termos. Nesta comunicação apresentamos um exemplo que mede a similaridade entre topónimos a partir das coocorrências com as classes a que pertencem dentro da tipologia geográfica. Um script em R serve como ferramenta para solucionar todo o procedimento. Palavras e frases chave: similaridade do cosseno, captura de relações semânticas, hiperonímia, hiponímia, entidades geográficas nomeadas, tipos geográficos.
Introduction and explanation of a script that splits a corpus to select sentences with a lower degree of syntactic complexity (sentence length) containing terms with the highest relative frequencies. Examples are given for medieval Welsh and early 17th century Portuguese.
Embora tenha uma base empírica e objetiva, uma ontologia é, também, uma abstração: a seleção do vocabulário, a ordenação hierárquica e as relações utilizadas têm uma natureza subjectiva, por quanto são o resultado de uma escolha (guiada por critérios mais ou menos objetivos, como pode ser a eficiência). A necessidade de estandardização favorece a implementação de ontologias prévias, que aforram o trabalho de desenho e garantem uma maior difusão dos resultados. Porém, no trabalho com corpora, especialmente os históricos, a particularidade dos vocabulários (termos inusuais ou com valores semânticos e representações gráficas distintas às do padrão atual) e as próprias diferenças na classificação das entidades geográficas (com classes menos comuns ou inexistentes hoje em dia e objetos mais difusos a respeito dos seus homólogos atuais) favorece a criação de taxonomias específicas. Nesta comunicação apresenta-se o trabalho de elaboração de uma taxonomia para a classificação dos topónimos de um corpus histórico (Peregrinação de Fernão Mendes Pinto, 1614) a partir de uma ontologia prévia (abordagem topo para a base) utilizada na ordenação de objetos geográficos contemporâneos (GeoNames) que serve para criar as categorias no topo da hierarquia, para finalmente gerar um produto híbrido que incorpora o vocabulário do domínio geográfico obtido da inspeção de concordâncias das entidades geográficas mencionadas no corpus (abordagem ascendente). A taxonomia resultante instância as entidades geográficas mencionadas conforme a um tipo geográfico (relações de hiponímia) que se acrescenta na ontologia com a relação georreferenciadora é_Parte_de e a sua inversa, Contém, correspondentes às relações semânticas de meronímia e holonímia.
Pitch position. Questions on rule-based and statistical approaches to annotate geographical named entities in historical corpora.
Pinto transcreve a língua dos tártaros: 1) em orações completas e 2) em nomes de lugar, pessoas e teónimos.
Partindo do conhecimento de apenas umas unidades básicas, esta comunicação quere mostrar que a principal dificuldade para começar a análise é o modo em que se está a ler o escrito na atualidade. Pretendo sobretudo animar algum grupo de investigação para começar o estudo desde um conhecemento profundo do mongol (eu apenas aprendi umas palavras no tempo que estive na Mongólia) e do português.
Layers: 1) Acquainted places (Asia) shows entities in Asia that appear as highly probable, evident or secure in the database. It is aimed to serve as a tool to provide relative georeferences (and solve exact coordinates when enough evidence is gathered) to those place names that have ambiguous interpretations in the knowledge database. 2)Acquainted places (global) shows all geographical entities mentioned in the first edition of Mendes Pinto's report (1614) that appear as highly probable, evident or secure in the database.