Machine translation
Machine translation, sometimes referred to by the abbreviation MT (not to be confused with computer-aided translation, machine-aided human translation (MAHT) or interactive translation) is a sub-field of computational linguistics that investigates the use of software to translate text or speech from one natural language to another.
On a basic level, MT performs simple substitution of words in one natural language for words in another, but that alone usually cannot produce a good translation of a text because recognition of whole phrases and their closest counterparts in the target language is needed. Solving this problem with ccorposant statistical techniques is a rapidly growing field that is leading to better translations, handling differences in linguistic typology, translation of idioms, and the isolation of anomalies.
Current machine translation software often allows for customization by domain or profession (such as weather reports), improving output by limiting the scope of allowable substitutions. This technique is particularly effective in domains where formal or formulaic language is used. It follows that machine translation of government and legal documents more readily produces usable output than conversation or less standardised text.
Improved output quality can also be achieved by human intervention: for example, some systems are able to translate more accurately if the user hasunambiguously identified which words in the text are proper names. With the assistance of these techniques, MT has proven useful as a tool to assist human translators and, in a very limited number of cases, can even produce output that can be used as is (e.g., weather reports).The progress and potential of machine translation have been debated much through its history. Since the 1950s, a number of scholars have questioned the possibility of achieving fully automatic machine translation of high quality. Some critics claim that there are in-principle obstacles to automatizing the translation process.
History
The idea of machine translation may be traced back to the 17th century. In 1629, René Descartes proposed a universal language, with equivalent ideas in different tongues sharing one symbol. The field of "machine translation" appeared in Warren Weaver's Memorandum on Translation (1949). The first researcher in the field, Yehosha Bar-Hillel, began his research at MIT (1951). A Georgetown MT research team followed (1951) with a public demonstration of its system in 1954. MT research programs popped up in Japan and Russia (1955), and the first MT conference was held in London (1956). Researchers continued to join the field as the Association for Machine Translation and Computational Linguistics was formed in the U.S. (1962) and the National Academy of Sciences formed the Automatic Language Processing Advisory Committee (ALPAC) to study MT (1964). Real progress was much slower, however, and after the ALPAC report (1966), which found that the ten-year-long research had failed to fulfill expectations, funding was greatly reduced.
The French Textile Institute also used MT to translate abstracts from and into French, English, German and Spanish (1970); Brigham Young University started a project to translate Mormon texts by automated translation (1971); and Xerox used SYSTRAN to translate technical manuals (1978). Beginning in the late 1980s, as computational power increased and became less expensive, more interest was shown in statistical models for machine translation. Various MT companies were launched, including Trados (1984), which was the first to develop and market translation memory technology (1989). The first commercial MT system for Russian/ English / German-Ukrainian was developed at Kharkov State University (1991).
MT on the web started with SYSTRAN Offering free translation of small texts (1996), followed by AltaVista Babe fish, which racked up 500,000 requests a day (1997). Franz-Josef Och (the future head of Translation Development AT Google) won DARPA's speed MT competition (2003). More innovations during this time included MOSES, the open-source statistical MT engine (2007), a text/SMS translation service for mobiles in Japan (2008), and a mobile phone with built-in speech-to-speech translation functionality for English, Japanese and Chinese (2009). Recently, Google announced that Google Translate translates roughly enough text to fill 1 million books in one day (2012).
The idea of using digital computers for translation of natural languages was proposed as early as 1946 by A. D. Booth and possibly others. Warren Weaver wrote an important memorandum "Translation" in 1949. The Georgetown experiment was by no means the first such application, and a demonstration was made in 1954 on the APEXC machine at Birkbeck College(University of London) of a rudimentary translation of English into French. Several papers on the topic were published at the time, and even articles in popular journals (see for example Wireless World, Sept. 1955, Cleave and Zacharov). A similar application, also pioneered at Birkbeck College at the time, was reading and composing Braille texts by computer.
Approach
Machine translation can use a method based on linguistic rules, which means that words will be translated in a linguistic way. The most suitable (orally speaking) words of the target language will replace the ones in the source language.
It is often argued that the success of machine translation requires the problem of natural language understanding to be solved first.
Generally, rule-based methods parse a text, usually creating an intermediary, symbolic representation, from which the text in the target language is generated. According to the nature of the intermediary representation, an approach is described as interlingual machine translation or transfer-based machine translation. These methods require extensive lexicons with morphological, syntactic, and semantic information, sets of rules.
Given enough data, machine translation programs often work well enough for a native speaker of one language to get the approximate meaning of what is written by the other native speaker. The difficulty is getting enough data of the right kind to support the particular method. For example, the large multilingual corpus of data needed for statistical methods to work is not necessary for the grammar-based methods. But then, the grammar methods need a skilled linguist to carefully design the grammar that they use. To translate between closely related languages, a technique referred to as Transfer-based machine translation may be used.
Rule-based
The rule-based machine translation paradigm includes transfer-based machine translation, interlingual machine translation and dictionary-based machine translation paradigms. This type of translation is used mostly in the creation of dictionaries and grammar programs. Unlike other methods, RBMT involves more information about the linguistics of the source and target languages, using the morphological and syntactic rules and semantic analysis of both languages. The basic approach involves linking the structure of the input sentence with the structure of the output sentence using a parser and an analyzer for the source language, a generator for the target language, and a transfer lexicon for the actual translation. RBMT's biggest downfall is that everything must be done explicit: orthographical variation and erroneous input must be made part of the source language analyzer in order to cope with it, and lexical selection rules must be written for all instances of ambiguity. Adapting to new domains in itself is not that hard, as the core grammar is the same across domains, and the domain-specific adjustment is limited to lexical selection adjustment.
Transfer-based machine translation
Transfer-based machine translation is similar to interlingual machine translation in that it creates a translation from an intermediate representation that simulates the meaning of the original sentence. Unlike interlingual MT, it depends partially on the language pair involved in the translation.
The automatic translation by means of rules consists of realizing transformations from the original one, replacing the words by his (her, your) more appropriate equivalent. To this type of transformations of the original text it (he, she) calls prediction of texts.
For example, some common rules for the Englishman (English) are:
Short prayers(sentences) (not more than 20).
To avoid the multiple coordination of prayers (sentences).
To insert determinants (determiners) providing that it (he, she) is possible.
To insert that, which, in order to in subordinated prayers (sentences) providing that it (he,she) is possible.
To avoid pronouns or expressions anafórics (it, them ...).
To rewrite when, while, before and after followed (continued) of-ing
To rewrite if, where, when followed (consecutive) by past participle.
To avoid the use of verbs frazzles.
to repeat the name / noun when it is modified by two or more adjectives.
repetition.
Interlingual machine translation
Interlingual machine translation is one instance of rule-based machine-translation approaches. In this approach, the source language, i.e. the text to be translated, is transformed into an interlingual language, i.e. a "language neutral" representation that is independent of any language. The target language is then generated out of the interlingual. One of the major advantages of this system is that the interlingual becomes more valuable as the number of target languages it can be turned into increases. However, the only interlingual machine translation system that has been made operational at the commercial level is the KANT system (Nyberg and Mitamura, 1992), which is designed to translate Caterpillar Technical English (CTE) into other languages.
Statistical machine translation
Statistical machine translation tries to generate translations using statistical methods based on bilingual text corpora, such as the Canadian Hansard corpus, the English-French record of the Canadian parliament and EUROPARL, the record of the European Parliament. Where such corpora are available, good results can be achieved translating similar texts, but such corpora are still rare for many language pairs. The first statistical machine translation software was CANDIDE from IBM. Google used SYSTRAN for several years, but switched to a statistical translation method in October 2007. In 2005, Google improved its internal translation capabilities by using approximately 200 billion words from United Nations materials to train their system; translation accuracy improved. Google Translate and similar statistical translation programs work by detecting patterns in hundreds of millions of documents that have previously been translated by humans and making intelligent guesses based on the findings. Generally, the more human-translated documents available in a given language, the more likely it is that the translation will be of good quality. Newer approaches into Statistical Machine translation such as METIS II and PRESEMT use minimal corpus size and instead focus on derivation of syntactic structure through pattern recognition. With further development, this may allow statistical machine translation to operate off of a monolingual text corpus. SMT's biggest downfall includes it being dependent upon huge amounts of parallel texts, its problems with morphology-rich languages (especially with translating into such languages), and its inability to correct singleton errors.
Example based in machine translation
Approach was proposed by Makoto Nagao in 1984. Example-based machine translation is based on the idea of analogy. In this approach, the corpus that is used is one that contains texts that have already been translated. Given a sentence that is to be translated, sentences from this corpus are selected that contain similar sub-sentential components. The similar sentences are then used to translate the sub-sentential components of the original sentence into the target language, and these phrases are put together to form a complete translation.
Hybrid machine translation
Hybrid machine translation (HMT) leverages the strengths of statistical and rule-based translation methodologies.Several MT organizations (such as Asia Online, LinguaSys, Systran, and Polytechnic University of Valencia) claim a hybrid approach that uses both rules and statistics. The approaches differ in a number of ways:
Rules post-processed by statistics: Translations are performed using a rules based engine. Statistics are then used in an attempt to adjust/correct the output from the rules engine.
Statistics guided by rules: Rules are used to pre-process data in an attempt to better guide the statistical engine. Rules are also used to post-process the statistical output to perform functions such as normalization. This approach has a lot more power, flexibility and control when translating.
Evaluation of machine translation
There are many factors that affect how machine translation systems are evaluated. These factors include the intended use of the translation, the nature of the machine translation software, and the nature of the translation process.
Regarding the intended use of the translation, evaluation is difficult because different programs work well for different purposes. For example, statistical machine translation (SMT) typically outperforms example-based machine translation (EBMT), but researchers found that when evaluating English to French translation, EBMT performs better. One possibility for this exception is due to greater agreement errors and boundary friction in the English Language, as compared to French. Whereas SMT more accurately translates French to English, EBMT appears to be more useful for less straightforward translations. The same concept applies for technical documents, which can be more easily translated by SMT because of their formal language. It is important to consider the functionality of translating programs when analyzing accuracy.
There are various means for evaluating the output quality of machine translation systems. The oldest is the use of human judges to assess a translation's quality. Even though human evaluation is time-consuming, it is still the most reliable method to compare different systems such as rule-based and statistical systems. In 1990, human judges evaluated all available research and commercial machine translation programs. The outputs of the programs were compared to human translations and evaluated on three components. The first component was fluency, also called intelligibility, which measures the discrepancy between the output and an English speaker's mental model of fluent English. The second was adequacy, which measured the degree to which the meaning expressed in the human translation was present in the MT output. The last component was in formativeness, also called fidelity, which examines the amount of needed information present in the output. Relying exclusively on unedited machine translation ignores the fact that communication in human language is context-embedded and that it takes a person to comprehend the context of the original text with a reasonable degree of probability. It is certainly true that even purely human-generated translations are prone to error. Therefore, to ensure that a machine-generated translation will be useful to a human being and that publishable-quality translation is achieved, such translations must be reviewed and edited by a human. The late Claude Piron wrote that machine translation, at its best, automates the easier part of a translator's job; the harder and more time-consuming part usually involves doing extensive research to resolve ambiguities in the source text, which the grammatical and lexical exigencies of the target language require to be resolved.[Such research is a necessary prelude to the pre-editing necessary in order to provide input for machine-translation software such that the output will not be meaningless.
In certain applications, however, e.g., product descriptions written in a controlled language, a dictionary-based machine-translation system has produced satisfactory translations that require no human intervention save for quality inspection.
Through the comparison of articles of different types (i.e. poems, novels and expositions) by Google Translate and Youdao Translate, the author concludes that machine translation has some advantages and disadvantages.
It is necessary to pay attention to rhythm and connotation when translating poems, according to the atmosphere of the poem. Machine translation often translates word by word but neglects the rhythm, making it seem like something other than a poem. When translating novels, some verbs and the logic of the story are important. Machine translation may make a story lack logic and make the story more difficult to understand, such as the translation of the conjunction word ‘and’. When it comes to expositions, attention should be paid to the precise choices of lexical translation. This type of article has expressions which are relatively objective and clear. The proper context when facing polysemies and grammatical problems is a very big part of machine translation.
In addition to disambiguation problems, decreased accuracy can occur due to varying levels of training data for machine translating programs. Both example-based and statistical machine translation rely on a vast array of real example sentences as a base for translation, and when too many or too few sentences are analyzed accuracy is jeopardized. Researchers found that when a program is trained on 203,529 sentence pairings, accuracy actually decreases. The optimal level of training data seems to be just over 100,000 sentences, possibly because as training data increasing, the number of possible sentences increases, making it harder to find an exact translation match.
Despite these disadvantages, machine translation still maintains some advantages. First, machine translation is much faster than human translation. Second, machine translation uses a much larger quantity of vocabulary than human translation. Although post-editing is still needed by translators, they need only adjust some words or grammar according to the ready-made target texts from machine translation. This will greatly improve the speed and efficiency of translators. As a result, undoubtedly, human translation should be integrated with machine translation to correct deficiencies. The author also hopes that with further research and development, machine translation can be capable of translating articles of different types in the near future.
It’s a good tool the machine translation
Although there have been concerns of machine translation's accuracy, Dr. Ana Nino of the University of Manchester has researched some of the advantages in utilizing machine translation in the classroom. One such pedagogical method is called using "MT as a Bad Model. MT as a Bad Model forces the language learner to identify inconsistencies or incorrect aspects of a translation; in turn, the individual will (hopefully) possess a better grasp of the language. Dr. Nino cites that this teaching tool was implemented in the late 1980s. At the end of various semesters, Dr. Nino was able to obtain survey results from students who had used MT as a Bad Model (as well as other models.) Overwhelmingly, students felt that they had observed improved comprehension, lexical retrieval, and increased confidence in their target language.
The machine translation and signed languages
In the early 2000s, options for machine translation between spoken and signed languages were severely limited. It was a common belief that deaf individuals could use traditional translators. However, stress, intonation, pitch, and timing are conveyed much differently in spoken languages compared to signed languages. Therefore, a deaf individual may misinterpret or become confused about the meaning of written text that is based on a spoken language.
Researchers Zhao, et al. (2000), developed a prototype called TEAM (translation from English to ASL by machine) that completed English to American Sign Language (ASL) translations. The program would first analyze the syntactic, grammatical, and morphological aspects of the English text. Following this step, the program accessed a sign synthesizer, which acted as a dictionary for ASL. This synthesizer housed the process one must follow to complete ASL signs, as well as the meanings of these signs. Once the entire text is analyzed and the signs necessary to complete the translation are located in the synthesizer, a computer generated human appeared and would use ASL to sign the English text to the user.
Esto es lo mismo chicas pero en español para que se ayuden todas
La traducción automática (TA), también llamada MT (del inglés Machine Translation), es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora realiza una sustitución simple de las palabras atómicas de un lenguaje natural por las de otro. Por medio del uso de corpora lingüísticos se pueden intentar traducciones más complejas, lo que permite un manejo más apropiado de las diferencias en la Tipología lingüística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías.
El software de traducción automática corriente a menudo permite para la personalización por el dominio o la profesión (como partes meteorológicos), mejorando la salida por limitando el alcance de substituciones aceptables. Esta técnica es en particular eficaz en dominios donde la lengua formal o formulaic es usada. Se sigue que la traducción automática de gobierno y actas legalizadas más fácilmente produce la salida utilizable que la conversación o el texto menos estandarizado.
La calidad de salida mejorada también puede ser alcanzada por la intervención humana: por ejemplo, algunos sistemas son capaces de traducir más con exactitud si el usuario hasunambiguously se identificado cuales palabras en el texto son nombres propios. Con la ayuda de estas técnicas, MT ha probado útil como un instrumento para ayudar a traductores humanos y, en un número muy limitado de casos, aún puede producir la salida que puede ser usada tal cual (p.ej., los partes meteorológicos) .The el progreso y el potencial de traducción automática han sido discutidos mucho por su historia. Desde los años 1950, un número de eruditos han preguntado la posibilidad de alcanzar la traducción automática totalmente automática de alta calidad. Algunos críticos demandan que hay en principio los obstáculos a la automatización del proceso de traducción
Historia
La idea de traducción automática puede ser remontada atrás al siglo XVII. En 1629, René Descartes propuso una lengua universal, con ideas equivalentes en lenguas diferentes que comparten un símbolo. El campo "de traducción automática" apareció en el Memorándum del Tejedor de Warren sobre la Traducción (1949). El primer investigador en el campo, Yehosha la Barra-Hillel, comenzó su investigación en MIT (1951). Georgetown MT el equipo de investigación siguió (1951) con una demostración(manifestación) pública de su sistema en 1954. MT programas de investigación apareció en Japón y Rusia (1955), y la primera conferencia MT fue sostenida en Londres (1956). Los investigadores siguieron uniendo el campo como la Asociación para la Traducción automática y la Lingüística Computacional fue formada en EE UU (1962) y la Academia Nacional de Ciencias formó el Tratamiento de Lengua Automático Consejo asesor (ALPAC) para estudiar MT (1964). El verdadero progreso era mucho lento, sin embargo, y después del informe (1966) ALPAC, que encontró que la investigación de diez años larga había fallado en realizar expectativas, enormemente redujeron(obligaron) el financiar.
El Instituto de Textil francés también usó MT para traducir resúmenes de y en el francés, el inglés, el alemán y el español (1970); Brigham Young la Universidad comenzó un proyecto de traducir textos de mormón por la traducción automatizada (1971); y Xerox usó SYSTRAN para traducir manuales técnicos (1978). Comenzando a finales de los años 1980, como el poder computacional aumentó y se hizo menos caro, mostraron más interés a modelos estadísticos para la traducción automática. Varias empresas MT fueron lanzadas, incluyendo Trados (1984), que era el primero en desarrollarse y la tecnología de memoria de traducción de mercado (1989). El primer sistema comercial MT para el inglés de Ruso / / alemán ucraniano fue desarrollado en la Universidad Estatal De Kharkov (1991) MT sobre el web comenzado con SYSTRAN que Ofrece la traducción libre(gratis) de pequeños textos (1996), seguido de AltaVista Babelfish, que acumuló 500,000 solicita(ruega) un día (1997). Franz-Josef Och (el futuro jefe de Desarrollo de Traducción EN Google) la velocidad del DARPA ganado MT competición(competencia) (2003). Más innovaciones durante este tiempo incluyeron a MOISÉS, el motor abierto de la fuente estadístico MT (2007), un servicio de traducción text/SMS para móviles en Japón (2008), y un teléfono móvil con la funcionalidad de traducción de discurso-a-discurso empotrada para el inglés, el japonés y el chino (2009). Recientemente, Google anunció que Google Traduce traduce bastante aproximadamente el texto para llenar 1 millón de libros en un día (2012).
Propusieron a la idea de usar calculadores numéricos para la traducción de lenguas naturales tan pronto como 1946 por A. D. Cabina y posiblemente otros. El Tejedor de Warren escribió un memorándum importante "la Traducción" en 1949. El experimento de Georgetown era en ningún caso el primero tal uso, y una demostración(manifestación) fueron hechos en 1954 sobre la máquina de APEXC en el Colegio Birkbeck (la Universidad de Londres) de una traducción rudimentaria de inglés en el francés. Varios papeles(periódicos) sobre el asunto fueron publicados entonces, y aún pacta en diarios populares (mirar por ejemplo el Mundo Inalámbrico, el septiembre de 1955, Hiéndase y Zacharov). Un uso similar, también promovido en el Colegio Birkbeck entonces, leía y componía textos En braille por el ordenador.
Enfoques
La traducción automática puede usar un método basado en reglas lingüísticas, que quieren decir que las palabras serán traducidas de un modo lingüístico. El más conveniente (oralmente hablando) las palabras del idioma de llegada sustituirán estos en el idioma de origen.
A menudo es argumentado que el éxito de traducción automática requiere el problema de la comprensión de lengua natural para ser solucionada primero.
Generalmente, métodos a base de regla analizan un texto, por lo general creando una representación intermediaria, simbólica, de lo cual el texto en el idioma de llegada es generado. Según la naturaleza de la representación intermediaria, un acercamiento es descrito como la traducción automática interlingual o la traducción automática a base de transferencia. Estos métodos requieren léxicos extensos con la información morfológica, sintáctica, y semántica, los juegos de reglas.
Reglas basadas
El paradigma de traducción automática a base de regla incluye la traducción automática a base de transferencia, la traducción automática interlingual y paradigmas de traducción automática a base de diccionario. Este tipo de traducción es usado sobre todo en la creación de programas de gramática y diccionarios. A diferencia de otros métodos, RBMT implica más información sobre la lingüística de la fuente e idiomas de llegada, usando las reglas morfológicas y sintácticas y el análisis semántico de ambas lenguas. El acercamiento básico implica la unión de la estructura de la sentencia(oración) de entrada con la estructura de la sentencia(oración) de salida que usa un analizador gramatical y un analizador para el idioma de origen, un generador para el idioma de llegada, y un léxico de transferencia para la traducción real. La caída más grande del RBMT consiste en que todo debe ser hecho explícito: ortografica.
La traducción automática mediante reglas consiste en realizar transformaciones a partir del original, reemplazando las palabras por su equivalente más apropiado. A este tipo de transformaciones del texto original se llama preedición de textos.
Por ejemplo, algunas reglas comunes para el inglés son:1
Oraciones cortas (no más de 20).
Evitar la coordinación múltiple de oraciones.
Insertar determinantes siempre que sea posible.
Insertar that, which, in order to en oraciones subordinadas siempre que sea posible.
Evitar pronombres o expresiones anafóricas (it, them...).
Reescribir when, while, before y after seguido de -ing.
Reescribir if, where, when seguido de participio pasado.
Evitar el uso de verbos frasales.
Repetir el nombre/sustantivo cuando vaya modificado por dos o más adjetivos.
Repetición de preposiciones en la coordinación de sintagmas preposiciones.
Reescribir compuestos nominales de más de tres nombres.
En general, en una primera fase se analizará un texto, normalmente creando una representación simbólica interna. Dependiendo de la abstracción de esta representación, también podemos encontrar diferentes grados: desde los directos, que básicamente hacen traducciones palabra por palabra, hasta interlingua, que utiliza una representación intermedia completa.
Interlingua
La traducción automática interlingual es un caso de accesos de traducción automática a base de regla. En este acercamiento, el idioma de origen, p. ej. el texto para ser traducido, es transformado en una lengua interlingual, p. ej. " una lengua neutro " la representación que es independiente de cualquier lengua. El idioma de llegada entonces es generado del interlingual. Una de las ventajas principales de este sistema es que el interlingual se hace más valioso como el número de idiomas de llegada puede ser convertido en aumentos. Sin embargo, el único sistema de traducción automática interlingual que ha sido hecho operacional en el nivel comercial es el sistema KANT (Nyberg y Mitamura, 1992), que es diseñado para traducir la Oruga el inglés Técnico (CTE) en otras lenguas.
Traducción automática estadística
La traducción automática estadística trata de generar traducciones que usan métodos estadísticos basados en el cuerpo de texto bilingüe, como la recopilación de canadiense Hansard, el registro inglés-francés del parlamento canadiense y EUROPARL, el registro del Parlamento europeo. Donde tal cuerpo es resultados disponibles, buenos puede ser alcanzado traduciendo textos similares, pero tal cuerpo es todavía raro para muchos pares de lengua. El primer software de traducción automática estadístico era CANDIDE de la IBM. Google usó SYSTRAN durante varios años, pero cambió a un método de traducción estadístico en octubre de 2007. En 2005, Google mejoró sus capacidades de traducción internas (interiores) por usando aproximadamente 200 mil millones de palabras de materiales de Naciones Unidas para entrenar su sistema; la exactitud de traducción se mejoró. Google Traducen y similar el trabajo de programas de traducción estadístico por descubriendo el modelo en unos cientos de unos millones de los documentos que antes han sido traducidos por la gente y la fabricación de conjeturas inteligentes basadas en las conclusiones. Generalmente, documentos más traducidos por humano disponibles en una lengua dada, más probablemente es que la traducción será de buena calidad. Accesos más recientes en la Traducción automática Estadística como el MESTIZO II Y PRESEMT usan el tamaño de recopilación mínimo y en cambio enfocan la derivación de estructura sintáctica por el reconocimiento de modelo. Con el remoto desarrollo, esto puede permitir a la traducción automática estadística para funcionar de una recopilación de texto monolingüe. La caída más grande del SMT lo incluye ser el dependiente sobre las enormes cantidades de textos paralelos, sus problemas con lenguas ricas de morfología (sobre todo traducción en tales lenguas), y su inhabilidad de corregir errores de semifallo.
Ejemplo basado en traducción automática
Makoto propuso al acercamiento Nagao en 1984. La traducción automática a base de ejemplo está basada en la idea de analogía. En este acercamiento, la recopilación que es usada es el que que contiene los textos que ya han sido traducidos. Considerando una sentencia(oración) que debe ser traducida, las sentencias(oraciones) de esta recopilación son seleccionadas que contiene componentes similares subsentenciosos. Las sentencias(oraciones) similares entonces son usadas traducir los componentes subsentenciosos de la sentencia(oración) original en el idioma de llegada, y estas frases son reunidas para formar una traducción completa.
Hybrid traducción automática
Traducción automática híbrida (HMT) apalancamientos las fuerzas de metodologías de traducción estadísticas y a base de regla. Varias organizaciones MT (como Asia En línea, LinguaSys, Systran, y la Universidad Politécnica de Valencia) reclaman un acercamiento híbrido que usa ambas reglas y estadística. Los accesos se diferencian de un número de modos:
Reglas postprocesadas por estadística: Las traducciones son realizadas usando las reglas el motor basado. La estadística entonces es usada en una tentativa de ajustar/corregir la salida del motor de reglas.
Estadística dirigida según reglas: Las reglas son usadas para pretratar datos en una tentativa de mejor dirigir el motor estadístico. Las reglas también son usadas posttratar la salida estadística para realizar funciones como la normalización. Este acercamiento tiene mucho más poder, flexibilidad y control
Evaluación de traducción automática
Hay muchos factores que afectan como los sistemas de traducción automática son evaluados. Estos factores incluyen el empleo intencionado de la traducción, la naturaleza del software de traducción automática, y la naturaleza del proceso de traducción.
En cuanto al empleo intencionado de la traducción, la evaluación es difícil porque programas diferentes trabajan bien para objetivos diferentes. Por ejemplo, la traducción automática estadística (SMT) típicamente supera la traducción automática a base de ejemplo (EBMT), pero los investigadores encontraron que evaluando el inglés a la traducción francesa, EBMT funciona mejor. Una posibilidad para esta excepción es debido a errores de acuerdo mayores y la fricción divisoria en la Lengua inglesa, comparando con el francés. Mientras que SMT más con exactitud traduce el francés al inglés, EBMT aparece ser más útil para traducciones menos francas. El mismo concepto solicita documentos técnicos, que más fácilmente pueden ser traducidos por SMT debido a su lengua formal. Es importante considerar la funcionalidad de traducir programas analizando la exactitud.
Hay vario medio para evaluar la calidad de salida de sistemas de traducción automática. El más viejo es el empleo de jueces humanos para evaluar la calidad de una traducción. Incluso aunque la evaluación humana sea que lleva mucho tiempo, esto es todavía el método más confiable de compararse diferentes sistemas como sistemas a base de regla y estadísticos. En 1990, jueces humanos evaluaron toda la investigación disponible y programas de traducción automática comerciales. Las salidas de los programas fueron comparadas a traducciones humanas y evaluadas sobre tres componentes. El primer componente era la fluidez, también la inteligibilidad llamada, que mide la discrepancia entre la salida y el modelo mental de un altavoz (orador) inglés de inglés fluido. El segundo era la suficiencia, que midió el grado al cual el significado expresado en la traducción humana estuvo presente en la salida MT. El último componente estaba en formativo, también la fidelidad llamada, que examina la cantidad de presente (regalo) necesario de la información en la salida. El confiar exclusivamente sobre la traducción automática inédita no hace caso del hecho que la comunicación en la lengua humana es el contexto del texto original con un grado razonable de probabilidad. Es seguramente verdadero que aún puramente las traducciones generadas por humano son propensas al error. Por lo tanto, para asegurar que una traducción generada por máquina será útil a un ser humano y que la traducción de publishable-calidad es alcanzada, tales traducciones deben ser repasadas y corregidas por un humano. Tardío Claudio Piron escribió que la traducción automática, en su lo mejor, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y más que lleva mucho tiempo por lo general implica haciendo la investigación extensa para resolver ambigüedades en el texto de origen, que las exigencias gramaticales y léxicas del idioma de llegada requieren para ser resuelto. Tal investigación es un preludio necesario al pre-editing necesario para proporcionar la entrada para el software de traducción automática tal que la salida no será sin significado.
En ciertos usos, sin embargo, p.ej., descripciones de producto escritas en una lengua controlada, un sistema de traducción automática a base de diccionario ha producido las traducciones satisfactorias que no requieren ninguna intervención humana salvo la inspección de calidad por la comparación de los artículos de tipos diferentes (p. ej. poemas, novelas y exposiciones) por Google Traducen y Youdao Traduce, el autor concluye que la traducción automática tiene algunas ventajas y desventajas.
Es necesario prestar atención al ritmo y la connotación traduciendo poemas, según la atmósfera del poema. La traducción automática a menudo traduce la palabra por la palabra, pero descuida el ritmo, haciéndolo parecer a otra cosa que un poema. Traduciendo novelas, algunos verbos y la lógica de la historia son importantes. La traducción automática puede hacer una historia carecer de la lógica y hacer la historia más difícil de entender, como la traducción de la palabra de conjunción 'y'. Cuando esto viene a exposiciones, la atención debería ser pagada a las opciones exactas de traducción léxica. Este tipo de artículo tiene las expresiones que son relativamente objetivas y claras. El contexto apropiado afrontando polisemias y problemas gramaticales es una parte muy grande de traducción automática.
Además de problemas de desambiguación, la exactitud disminuida puede ocurrir debido a la variación de los niveles de datos que se entrenan para programas de traducción de máquina. Tanto la traducción automática a base de ejemplo como estadística confía en una serie enorme de verdaderas sentencias(oraciones) de ejemplo como una base para la traducción, y cuando demasiado o demasiado pocas sentencias(oraciones) son la exactitud analizada es puesto en peligro. Los investigadores encontraron que cuando un programa es entrenado sobre 203,529 apareamientos de sentencia(oración), la exactitud en realidad se disminuye. El nivel óptimo de datos que se entrenan parece ser un poco más de 100,000 sentencias(oraciones), posiblemente porque como el aumento de datos que se entrena, el número de sentencias(oraciones) posibles aumenta fabricación de ello más difícil para encontrar un fósforo(partido) de traducción exacto.
A pesar de estas desventajas, traducción automática todavía mantiene algunas ventajas. Primero, la traducción automática es mucho más rápida que la traducción humana. Segundo, la traducción automática usa una cantidad mucho más grande de vocabulario que la traducción humana. Aunque la redacción posterior sea todavía necesaria por traductores, ellos tienen que sólo ajustar algunas palabras o gramática según los textos de llegada confeccionados de la traducción automática. Esto enormemente mejorará la velocidad y eficacia de traductores. Por consiguiente, indudablemente, la traducción humana debería ser integrada con la traducción automática para corregir carencias. El autor también espera que con la remota investigación y desarrollo, la traducción automática pueda ser capaz de traducir los artículos de diferente teclea el futuro próximo.
Esto es un instrumento bueno la traducción automática
Aunque hubiera preocupaciones (intereses) de la exactitud de la traducción automática, el Doctor Ana Nino de la Universidad de Manchester ha investigado algunas ventajas en la utilización de la traducción automática en el aula. Llaman un tal método pedagógico usando " MT como un Modelo Malo. MT como un Modelo Malo fuerza al principiante de lengua a identificar inconsistencies o los aspectos incorrectos de una traducción; a su turno, el individuo (con esperanza) poseerá un mejor asimiento de la lengua. El Doctor Nino cita aquel este instrumento de enseñanza fue puesto en práctica a finales de los años 1980. Al final de varios semestres, Doctor Nino fue capaz de obtener el estudio es resultado de los estudiantes que habían usado MT como un Modelo Malo (así como otros modelos.) Abrumadoramente, los estudiantes sintieron que ellos habían observado la comprensión mejorada, léxica recuperación, y confianza aumentada en su idioma de llegada.
La traducción automática y lenguas firmadas
A principios de los años 2000, las opciones para la traducción automática entre lenguas habladas y firmadas con severidad fueron limitadas. Esto era una creencia común que individuos sordos podrían usar a traductores tradicionales. Sin embargo, la tensión, la entonación, el diapasón, y el engranaje de distribución son transportados mucho de manera diferente en lenguas habladas comparadas a lenguas firmadas. Por lo tanto, un individuo sordo puede interpretar mal o hacerse confuso sobre el significado de texto escrito que está basado en una lengua hablada.
Investigadores Zhao, et al. (2000), desarrolló un prototipo el EQUIPO llamado (la traducción del inglés a ASL por la máquina) que completó el inglés al Lenguaje por señas americano (ASL) traducciones. El programa primero analizaría los aspectos sintácticos, gramaticales, y morfológicos del texto inglés. Después de este paso, el programa tuvo acceso a un sintetizador de signo, que actuó como un diccionario para ASL. Este sintetizador almacenó el proceso que hay que seguir para completar ASL firma, así como los significados de estos signos. Una vez que el texto entero es analizado y los signos necesarios de completar la traducción son localizados en el sintetizador, un ordenador el humano generado apareció y usaría ASL para firmar el texto inglés al usuario.
20