Possibilités d'utiliser la traduction automatique dans le travail d'un traducteur dans le domaine professionnel. Traduction automatique : surmonter les barrières linguistiques
Type de travail:
Rapport de pratique sur le thème : Traduction automatique. Système de traduction automatique PROMT
21.03.2012 10:20:09
Type de fichier:
Analyse antivirus :
Vérifié - Kaspersky Anti-Virus
Texte intégral:
Présentation……………………………………………………………………………..2
Chapitre I. Traduction automatique
Histoire de la traduction automatique………………………………………….…4
Comment la traduction automatique est-elle effectuée……………………………..10
Les systèmes de traduction automatique et leur classification…………............13
Qualité de la traduction automatique…………………………………………..18
Chapitre II. Système de traduction automatique PROMT
2.1 Caractéristiques du traducteur automatique de la famille PROMT…………...22
2.2 Analyse comparative des traductions d'un texte littéraire réalisées par un système de traduction automatique et une personne……………………………...…26
Conclusion………………………………………………………………….….30
Bibliographie…………………………………………………………………..31
Introduction
La traduction (un type de médiation linguistique, dans lequel le contenu d'un texte étranger de l'original est transféré dans une autre langue en créant un texte communicativement équivalent dans cette langue. (n° 7)) a une longue histoire, elle remonte à la des moments où la langue maternelle commençait à se désintégrer en langues distinctes et il y avait un besoin de personnes capables d'être des intermédiaires dans la communication des représentants de différentes communautés linguistiques.
L'équivalence communicative est comprise comme la capacité du texte traduit à remplacer intégralement le texte original (n° 7).
L'équivalence communicative du nouveau texte par rapport à l'original est donnée par :
transfert du contenu de l'original dans son intégralité ;
· conformité du texte traduit avec le texte original selon les normes de la langue cible ;
· le texte de la traduction doit correspondre à l'original en termes de concision et de développement des déclarations afin d'obtenir un effet stylistique similaire. En outre, la traduction doit être à peu près comparable en volume.
Pertinence Ce problème est dû au fait que l'histoire du développement et de l'introduction des ordinateurs personnels (capables de traduction automatique) dans la vie quotidienne n'a pas plus de quinze à vingt ans. Aujourd'hui, les programmes de traduction sont capables de construire des expressions significatives et des phrases simples ; au cours des dernières années, la qualité de la traduction s'est améliorée.
Objet d'étude est un système de traduction automatique.
Sujet de recherche est une traduction effectuée par le système PROMT XT.
Cependant, ces programmes informatiques ne connaissent pas encore bien la grammaire, les expressions d'argot, les dispositifs stylistiques et bien d'autres bagatelles apparemment, mais c'est à partir d'eux qu'une belle traduction compréhensible est formée. Dans le monde moderne, les ordinateurs occupent une place importante parmi les traducteurs, les linguistes et les spécialistes qui ont besoin de traduire rapidement des informations en langues étrangères.
Le développement de la cybernétique a rendu possible la traduction automatique, c'est-à-dire l'action effectuée sur un ordinateur pour convertir un texte dans une langue naturelle en texte équivalent dans un contenu dans une autre langue, ainsi que le résultat d'une telle action. Actuellement, les principaux domaines d'application de la traduction automatique sont la traduction de pages Internet, de manuels techniques et d'e-mails. Dans ce cas, seule une compréhension générale du texte est atteinte. Une autre application de ces systèmes est de faciliter le travail des traducteurs professionnels, en réduisant le temps consacré à la traduction interlinéaire, qui peut ensuite être éditée.
Cible de ce travail est de déterminer dans quelle mesure les programmes modernes peuvent être utilisés pour la traduction, ainsi que leur efficacité.
Conformément à l'objectif affiché, Tâches les études sont :
· Clarification de la séquence des opérations formelles, fournissant une analyse et une synthèse dans le système de traduction automatique (traduction);
· Analyse du travail des systèmes de traduction automatique sur l'exemple de traduction produit par le programme PROMT XT ;
· Comparer des exemples de traductions avec des traductions humaines. Analyse des causes de non-conformité.
L'article retracera également l'histoire du développement de la traduction automatique, tant dans notre pays qu'à l'étranger. L'algorithme pour la mise en œuvre de la traduction automatique, la classification des systèmes de traduction automatique, le problème de la qualité de la traduction sont considérés.
Chapitre I. Traduction automatique.
1.1 Histoire de la traduction automatique
Leibniz et Descartes ont d'abord proposé l'idée d'utiliser des mécanismes pour traduire d'une langue à une autre. Ils ont tenté de créer un dictionnaire basé sur des codes numériques. Depuis l'Antiquité, il y a eu des idées sur un langage compréhensible pour tous, construit exclusivement sur la logique, utilisant des symboles - des pictogrammes. Le développement le plus célèbre dans ce domaine était "interlingua" de John Wilkins. Bien plus tard, plusieurs autres langues artificielles ont été créées, dont la plus célèbre est l'espéranto de Lev Znamenhof. Selon des biographes, le célèbre mathématicien Charles Babbage, tentant de convaincre le gouvernement britannique de financer son développement du "moteur analytique", a promis que dans un avenir proche sa machine, entre autres, serait capable de traduire un discours familier. Mais la voiture n'a jamais été construite.
En 1933, deux brevets ont été délivrés pour un système de traduction mécanique - en Russie et en France. L'arménien français Georges Arsuni a inventé un schéma de dispositif sur une bande de papier pour traduire un mot arbitraire dans une autre langue et en 1937. fait la démonstration d'un système prototype. En Russie, le brevet est allé à Peter Smirnov - Troyansky, qui a inventé une sorte de machine à additionner linguistique. Il a distingué trois étapes de la traduction mécanique : à la première étape, une personne connaissant la langue d'entrée présentait les mots et les phrases sous la forme "de base" et organisait les fonctions syntaxiques des mots. Dans un deuxième temps, la machine a traduit ces formes et fonctions dans la langue cible, puis, dans un troisième temps, le texte résultant a été édité par un locuteur natif de la langue cible. Smirnov-Troyansky pensait qu'au moins la deuxième étape pouvait être automatisée (n° 15).
L'histoire de la traduction automatique en tant que direction scientifique et appliquée a commencé à la fin des années 40 du siècle dernier. En mars 1947, Warren Weaver, directeur du Département des sciences naturelles de la Fondation Rockefeller, dans une correspondance avec Edru Booth et Norbert Wiener, formule pour la première fois le concept de traduction automatique, qu'il développera plus tard (en 1949) dans son mémorandum adressé à la Fondation. . W. Weaver a écrit : "J'ai devant moi un texte qui est écrit en russe mais je vais prétendre qu'il est vraiment écrit en anglais et qu'il a été codé dans des symboles étranges. Tout ce que j'ai à faire, c'est de me déshabiller. du code afin d'obtenir les informations contenues dans le texte." caractères. Il me suffit de casser le code pour extraire les informations contenues dans le texte.") L'analogie entre traduction et déchiffrement était naturelle dans le contexte du post -ère de la guerre, compte tenu des avancées que la cryptographie a faites pendant la Seconde Guerre mondiale.
recherche propre caractéristiques externes des messages, tels que la fréquence d'éléments individuels et de combinaisons d'éléments ;
étude de la répartition des éléments qui composent le texte ;
· analyse des bilingues afin d'identifier les éléments de coïncidence et l'utilisation de certains éléments clés (noms propres, etc.), en tenant compte des caractéristiques statistiques et distributionnelles ;
trouver la clé et l'appliquer à toute la séquence de messages codés (n° 11)
À peu près à la même époque, Claude Shannon a formulé la théorie de l'information et Norbert Wiener a posé les fondements conceptuels de la cybernétique. Et bientôt de l'argent a été alloué à la recherche, et la traduction automatique est devenue une direction scientifique indépendante, née à l'intersection des mathématiques et de la programmation.
Les idées de Weaver ont formé la base d'une approche de la traduction automatique basée sur le concept d'interlingua : l'étape de transfert d'informations est divisée en deux étapes ; dans un premier temps, la phrase source est traduite dans une langue intermédiaire (créée sur la base d'un anglais simplifié), puis le résultat de cette traduction est présenté au moyen de la langue cible. Le mémorandum Weaver a suscité le plus vif intérêt pour le problème MP. En 1948, A. Booth et Richard Richens ont fait quelques expériences préliminaires (par exemple, Richens a développé les règles pour diviser les formes de mots en radicaux et terminaisons).
À cette époque, les ordinateurs étaient très différents des ordinateurs modernes. Il s'agissait de machines très volumineuses et coûteuses qui occupaient des pièces entières et nécessitaient un grand nombre d'ingénieurs, d'opérateurs et de programmeurs pour les entretenir. Fondamentalement, ces ordinateurs servaient à effectuer des calculs mathématiques pour les besoins des institutions militaires, ainsi que des facultés de mathématiques et de physique des universités. Par conséquent, au début, le développement des systèmes MT était activement soutenu par l'armée, tandis qu'aux États-Unis, l'attention principale était accordée à la direction russo-anglaise et en URSS - à la direction anglo-russe. En 1952 eut lieu la première conférence sur la traduction automatique, organisée par le logicien et mathématicien J. Bar-Hillel. Au-delà des besoins pratiques évidents rôle important Le fait que le fameux test d'intelligence (le « test de Turing »), proposé en 1950 par le mathématicien anglais A. Turing, ait en fait remplacé la question de savoir si une machine peut penser par la question de savoir si une machine peut communiquer avec une personne en nature langage de telle manière qu'il ne pourra pas le distinguer d'un interlocuteur humain. Ainsi, les problématiques du traitement informatique des messages en langage naturel ont été au centre des recherches en cybernétique (et plus tard en intelligence artificielle) pendant des décennies, et une coopération fructueuse s'est établie entre mathématiciens, programmeurs et ingénieurs informaticiens, d'une part, et linguistes, de l'autre.
En fait, l'histoire de la traduction automatique commence avec "l'expérience de Georgetown". IBM, en collaboration avec l'Université de Georgetown (USA), a mené avec succès la première expérience (qui est entrée dans l'histoire sous le nom de Georgetown), au cours de laquelle un système utilisant un dictionnaire de 250 mots et une grammaire de 6 règles syntaxiques a traduit 49 pré- phrases choisies. Dans le même 1954, la première expérience de traduction automatique a été réalisée en URSS par I.K. Belskaya (partie linguistique) et D.Yu. et un système de traduction automatique de l'anglais vers le russe sur un ordinateur universel a été développé par une équipe dirigée par Yu .A.Moteur. Après cela, le travail a commencé dans de nombreux instituts d'information, organisations scientifiques et éducatives du pays. L'idée de la traduction automatique a stimulé le développement de la recherche en linguistique théorique et appliquée dans le monde entier. Les théories des grammaires formelles sont apparues, une grande attention a commencé à être accordée à la modélisation de la langue et de ses aspects individuels, à l'activité linguistique et mentale, aux questions de forme linguistique et aux distributions quantitatives des phénomènes linguistiques. De nouveaux domaines de la science linguistique ont émergé - la linguistique informatique, mathématique, d'ingénierie, statistique, algorithmique et un certain nombre d'autres branches de la linguistique appliquée et théorique. Au cours des années 1950, des départements de linguistique appliquée et de traduction automatique ont été ouverts dans des centres d'enseignement de nombreux pays du monde. La recherche et le développement sur la traduction automatique se sont également développés en France, en Angleterre, aux États-Unis, au Canada, en Italie, en Allemagne, au Japon, aux Pays-Bas, en Bulgarie, en Hongrie et dans d'autres pays, ainsi qu'en organisations internationales, où le volume de traductions de différentes langues est important.
La première génération de systèmes de traduction automatique était basée sur des algorithmes de traduction séquentielle "mot à mot", "phrase par phrase". Les capacités de ces systèmes étaient déterminées par les tailles de dictionnaires disponibles, qui dépendaient directement de la quantité de mémoire de l'ordinateur. La traduction du texte a été réalisée en phrases séparées, les liens sémantiques entre elles n'ont en aucun cas été pris en compte. De tels systèmes sont appelés systèmes de traduction directe. Au fil du temps, ils ont été remplacés par des systèmes des générations suivantes, dans lesquels la traduction d'une langue à l'autre s'effectuait au niveau des structures syntaxiques. Les algorithmes de traduction ont utilisé un ensemble d'opérations qui permet, en analysant la phrase traduite, de construire sa structure syntaxique selon les règles de grammaire de la langue de la phrase d'entrée, puis de la transformer en la structure syntaxique de la phrase de sortie et de synthétiser la phrase de sortie , en remplaçant les mots nécessaires du dictionnaire. De tels systèmes sont appelés systèmes T (T - du mot anglais "transfert - transformation").
L'approche la plus parfaite est considérée comme l'approche de construction de systèmes de traduction automatique basée sur l'obtention d'une représentation sémantique indépendante de la langue de la phrase d'entrée au moyen de son analyse sémantique. Ensuite, la phrase de sortie est synthétisée selon la représentation sémantique obtenue. De tels systèmes sont appelés systèmes I (I - du mot "interlingua"). On pense que les prochaines générations de systèmes de traduction automatique appartiendront à la classe des systèmes I.
Dans les années 1950, un certain nombre de groupes de recherche aux États-Unis et en Europe ont travaillé dans le domaine de la MT. Des fonds importants ont été investis dans ces études, mais les résultats ont rapidement déçu les investisseurs. L'une des principales raisons de la faible qualité de la PM au cours de ces années était opportunités limitées matériel: une petite quantité de mémoire avec un accès lent aux informations qu'elle contient, l'incapacité d'utiliser pleinement les langages de programmation de haut niveau. Une autre raison était le manque de base théorique nécessaire pour résoudre les problèmes linguistiques, ce qui a réduit les premiers systèmes de traduction automatique à la traduction mot à mot de textes sans aucune intégrité syntaxique (et encore plus sémantique).
Il s'est avéré que la linguistique traditionnelle n'a ni le matériel réel, ni les idées et les représentations nécessaires pour construire des systèmes de traduction automatique qui utiliseraient le sens du texte traduit.
La linguistique traditionnelle ne pouvait pas donner d'idées initiales non seulement en termes de sémantique, mais aussi en termes de syntaxe. À cette époque, il n'existait aucune liste de constructions syntaxiques pour aucune langue, les conditions de leur compatibilité et de leur interchangeabilité n'étaient pas étudiées, les règles de construction de grandes unités de structure syntaxique à partir de plus petites n'étaient pas développées. En fait, pas une seule question posée à propos de la construction des systèmes de traduction automatique ne pouvait être résolue par la linguistique traditionnelle dans les années 1950.
La nécessité de créer les fondements théoriques de la traduction automatique a conduit à la formation d'une nouvelle direction en linguistique, appelée linguistique structurale, appliquée et mathématique.
En 1959 le philosophe, mathématicien, logicien Bar-Hillel a déclaré qu'en principe, la MT entièrement automatique de haute qualité (FAHQMT) ne peut pas être atteinte. À titre d'exemple, il a donné le problème de trouver la traduction correcte du mot stylo dans le contexte suivant : Jean cherchait son coffre à jouets. Enfin il l'a trouvé. La boîte était dans l'enclos. Jean était très content. (John cherchait sa boîte à jouets. Finalement, il l'a trouvée. La boîte était dans le parc. John était très heureux.). Pen dans ce cas ne doit pas être traduit par "stylo" (outil d'écriture), mais par "playpen" (play-pen). Le choix de l'une ou l'autre traduction dans ce cas et dans nombre d'autres est déterminé par la connaissance de la réalité extralinguistique, et cette connaissance est trop étendue et variée pour être saisie dans un ordinateur. Cependant, Bar-Hillel n'a pas renié l'idée de MT en tant que telle, considérant le développement de systèmes de machines orientés vers leur utilisation par un traducteur humain (une sorte de "symbiose homme-machine") comme une direction prometteuse.
Cette performance a eu l'effet le plus défavorable sur le développement du MP aux USA. En 1966, l'ALPAC (Comité consultatif sur le traitement automatique du langage) spécialement créé par l'Académie nationale des sciences, s'appuyant entre autres sur les conclusions de Bar-Hillel, arrive à la conclusion que la traduction automatique n'est pas rentable : le rapport du coût et la qualité de la MT n'était clairement pas en faveur de ce dernier et il y avait suffisamment de ressources humaines pour les besoins de traduction de textes techniques et scientifiques. Le rapport ALPAC a été suivi d'une réduction du financement de la recherche dans le domaine de la MT par le gouvernement américain - et ce malgré le fait qu'à l'époque au moins trois divers systèmes Les députés étaient régulièrement utilisés par un certain nombre d'organisations militaires et scientifiques.
Pendant les dix années suivantes (années 60), le développement des systèmes de traduction automatique a été réalisé aux États-Unis par l'Université Brigham Young de Provo, Utah (premiers systèmes commerciaux WEIDNER et ALPS) et financé par l'Église mormone intéressée à traduire la Bible ; au Canada par des équipes de recherche dont TAUM à Montréal avec son système METEO; en Europe - groupes GENA (Grenoble) et SUSY (Sarrebruck). Une mention spéciale doit être faite du travail dans ce domaine des linguistes nationaux, tels que I.A. Melchuk et Yu.D. Apresyan (Moscou), qui a abouti au processeur linguistique ETAP. En 1960, dans le cadre de l'Institut de recherche en mathématiques et mécanique de Leningrad, un laboratoire expérimental de traduction automatique a été organisé, qui a ensuite été transformé en laboratoire de linguistique mathématique de l'Université d'État de Leningrad.
Avec le développement de l'informatique à la fin des années 70 (émergence des micro-ordinateurs, développement des réseaux, augmentation des ressources mémoire), la traduction automatique est entrée dans une nouvelle ornière. Dans le même temps, l'accent a quelque peu changé : les chercheurs se fixent désormais comme objectif le développement de systèmes de traduction automatique "réalistes", qui supposent la participation d'une personne à différentes étapes du processus de traduction.
Un nouvel essor de la recherche dans le domaine de la MT a commencé dans les années 1970 et a été associé à des avancées majeures dans le domaine de la simulation informatique de l'activité intellectuelle. Le domaine de recherche correspondant, apparu un peu plus tard que MP, s'appelait intelligence artificielle, et la création de systèmes de traduction automatique a été comprise dans les années 1970 comme l'une des tâches particulières de cette nouvelle direction de recherche.
Il existe deux principales incitations au développement du travail de traduction automatique dans le monde moderne. Le premier est en fait scientifique ; il est déterminé par la complexité et la complexité de la simulation informatique de la traduction. En tant que type d'activité linguistique, la traduction affecte tous les niveaux de la langue - de la reconnaissance des graphèmes (et des phonèmes dans la traduction de la parole orale) au transfert du sens de l'énoncé et du texte. De plus, la traduction se caractérise par un retour d'expérience et la possibilité de tester immédiatement une hypothèse théorique sur la structure de certains niveaux de langue et l'efficacité des algorithmes proposés. Ce trait caractéristique de la traduction en général et de la traduction automatique en particulier attire l'attention des théoriciens, à la suite de quoi de nouvelles théories de l'automatisation de la traduction et de la formalisation des données et des processus linguistiques continuent d'émerger.
La deuxième incitation est sociale, et elle est due au rôle croissant de la pratique de la traduction elle-même dans le monde moderne en tant que condition nécessaire assurant une communication interlinguistique dont le volume augmente chaque année. D'autres moyens de surmonter les barrières linguistiques dans la communication - le développement ou l'adoption d'une langue commune, ainsi que l'étude de langues étrangères - ne peuvent être comparés à la traduction en termes d'efficacité. De ce point de vue, on peut affirmer qu'il n'y a pas d'alternative à la traduction, de sorte que le développement de systèmes de traduction automatique de haute qualité et performants contribue à la résolution des tâches sociales et communicatives les plus importantes.
Au cours de la période 1978-93, 20 millions de dollars ont été dépensés pour la recherche dans le domaine de la MT aux États-Unis, 70 millions en Europe et 200 millions au Japon.
L'un des nouveaux développements est la technologie TM (mémoire de traduction), qui fonctionne sur le principe de l'accumulation : pendant le processus de traduction, le segment original (phrase) et sa traduction sont enregistrés, ce qui entraîne la formation d'une base de données linguistique ; si un segment identique ou similaire est trouvé dans le texte nouvellement traduit, il est affiché avec la traduction et une indication du pourcentage de correspondance. Le traducteur prend alors une décision (éditer, rejeter ou accepter la traduction), dont le résultat est stocké par le système. Un système commercial bien connu basé sur la technologie TM est actuellement développé par le système TRADOS (fondé en 1984).
En URSS, en 1974, le Centre pansyndical de traduction de la littérature et de la documentation scientifiques et techniques (VTsP) a été désigné comme organisation principale de la traduction automatique, qui a pris en charge la coordination des travaux à l'échelle nationale. Sous ses auspices, plusieurs grandes conférences scientifiques internationales sur la traduction automatique et les problèmes de la traduction scientifique et technique se sont tenues. Le VDC a créé des systèmes industriels de traduction automatique de l'anglais vers le russe AMPAR (basé sur la recherche et le développement de l'équipe de Yu.A. Motorin), de l'allemand vers le russe NERPA, avec Français en russe FRAP, dictionnaires terminologiques automatiques pour aider un traducteur humain. Le système AMPAR est en exploitation commerciale depuis longtemps; plus tard, sur sa base, des systèmes MT plus efficaces pour les ordinateurs personnels de la famille SPRINT ont été créés. Le HCV a également développé le système ASPERA MT du russe vers l'anglais. Grande contribution au développement systèmes industriels Le député a été créé par le groupe de l'Union de Leningrad "Statistiques de la parole" sous la direction de R.G. Piotrovsky, ainsi que par des groupes de spécialistes en linguistique informatique à Minsk (A.V. Zubov), Chisinau (V.A. Chaplya), Chimkent (K.B. Bektaev ), Samarkand (Kh.A. Arzikulov) et d'autres comme Stylus, Socrat et d'autres.
Les premiers produits commerciaux de traduction automatique qui ont trouvé une utilisation pratique sont apparus au milieu des années 1980.
Actuellement, en Fédération de Russie, certains travaux se poursuivent à petite échelle sur les systèmes de traduction automatique basés sur l'approche «texte-sens-texte», dont le slogan, à l'époque où cette approche était justifiée dans les années 1960, était «la traduction automatique sans traduction, sans machines, sans algorithmes » (voir la revue des travaux en ce sens par L.N. Belyaeva et M.I. Otkupshchikova). L'idée de l'approche était que le linguiste n'a besoin que d'une description déclarative des faits de la langue (c'est-à-dire d'une théorie linguistique qui prétend pourtant être particulièrement précise et formalisée), et les algorithmes de traduction seront compilés par un programmeur et un mathématicien. Dans le cadre de ces études, des résultats théoriques et linguistiques importants ont été obtenus (en particulier, une théorie des fonctions dites lexicales a été créée, qui a trouvé une application en lexicographie), mais cette approche n'a pas été suffisamment efficace pour créer des systèmes pratiques de ce genre. . Les possibilités de la technologie informatique qui se sont développées de manière incommensurable au cours des dernières décennies et les nouvelles approches de programmation ne peuvent en aucun cas aider à mettre en œuvre les idées d'analyse et de synthèse basées sur la priorité de ne révéler que la structure syntaxique avec le passage ultérieur au sens. La révélation du contenu du texte dans le cadre de l'interface homme-machine ne peut être effectuée, comme dans toute tâche appliquée, qu'en utilisant à la fois des connaissances déclaratives et procédurales et avec un recours important au vocabulaire. Ce point de vue est notamment étayé par les travaux récents d'A.S. Narinyani, spécialiste national de la programmation et de l'intelligence artificielle.
1.2 Comment fonctionne la traduction automatique.
Les systèmes MP effectuent la traduction automatique du texte. Dans ce cas, les unités de traduction sont des mots ou des phrases, et les derniers développements permettent de prendre en compte la morphologie du mot traduit. Les systèmes de traduction automatique développés effectuent la traduction selon les algorithmes de traduction spécifiés par le développeur et/ou ajustés par l'utilisateur. Pour effectuer une traduction automatique, entrez dans l'ordinateur programme spécial, qui implémente l'algorithme de traduction, qui est compris comme une séquence d'actions non ambiguës et strictement définies sur le texte pour trouver des correspondances de traduction dans une paire donnée de langues A1 - A2 pour un sens de traduction donné (d'une langue spécifique à une autre ). Le système de traduction automatique comprend des dictionnaires bilingues fournis avec les informations grammaticales nécessaires (morphologiques, syntaxiques et sémantiques) pour assurer le transfert des correspondances de traduction équivalentes, variantes et transformationnelles, ainsi que des outils algorithmiques d'analyse grammaticale mettant en œuvre l'une quelconque des grammaires formelles adoptées pour la traduction automatique. traitement de texte. . Il existe également des systèmes de traduction automatique autonomes conçus pour traduire dans trois langues ou plus, mais ils sont actuellement expérimentaux. La plus courante est la séquence d'opérations formelles suivante qui fournit l'analyse et la synthèse dans un système de traduction automatique : 1. Lors de la première étape, le texte est saisi et les formes de mots saisis sont recherchées (mots sous une forme grammaticale spécifique, par exemple accusatif pluriel) dans le dictionnaire d'entrée (dictionnaire de la langue à partir de laquelle la traduction est faite) accompagnée d'une analyse morphologique, au cours de laquelle l'appartenance de cette forme de mot à un certain lexème (mot comme unité du dictionnaire) est établie. Dans le processus d'analyse, des informations relatives à d'autres niveaux d'organisation du système linguistique peuvent également être obtenues à partir de la forme du mot. 2. L'étape suivante comprend la traduction de phrases idiomatiques, d'unités phraséologiques ou de timbres d'un domaine donné (par exemple, dans la traduction anglais-russe, des phrases comme c'est pourquoi, sous la forme de recevoir un seul équivalent numérique et sont exclus d'une analyse grammaticale plus poussée) ; détermination des principales caractéristiques grammaticales (morphologiques, syntaxiques, sémantiques et lexicales) des éléments du texte d'entrée (par exemple, le nombre de noms, le temps du verbe, les fonctions syntaxiques des formes de mots dans ce texte), produites dans le texte d'entrée langue; résolution de l'homographie (homonymie de conversion des formes de mots - disons, pourquoi l'anglais peut être un nom, une interjection, un adverbe); analyse lexicale et traduction de lexèmes. Habituellement, à ce stade, les mots à valeur unique sont séparés des mots polysémantiques (ayant plus d'un équivalent de traduction dans la langue cible), après quoi les mots à valeur unique sont traduits selon des listes d'équivalents, et des dictionnaires dits contextuels sont utilisés. pour traduire des mots polysémantiques dont les entrées de dictionnaire sont des algorithmes d'interrogation du contexte en présence/absence de déterminants de valeur de contexte.3. L'analyse grammaticale finale, au cours de laquelle les informations grammaticales nécessaires sont déterminées, en tenant compte des données de la langue cible (par exemple, avec des noms russes comme traîneau, ciseaux, le verbe doit être au pluriel, malgré le fait que l'original peut ont un singulier. Mais en même temps, le mot "russe" "porosya" s'avère être un verbe réfléchi avec le sens d'un nom. "Peu importe comment on analyse mot russe"Cochon", d'un point de vue linguistique, il n'est absolument pas comparable aux verbes réfléchis en - Xia. L'articulation linguistique d'un mot et l'articulation d'un mot « commode » pour une machine n'ont rien de commun. (Numéro 4))
4. Synthèse des formes de mots de sortie et des phrases en général dans la langue cible. En fonction des caractéristiques de la morphologie, de la syntaxe et de la sémantique d'une paire de langues particulière, ainsi que du sens de la traduction, l'algorithme général de traduction peut inclure d'autres étapes, ainsi que des modifications de ces étapes ou de leur ordre, mais des variations de ce type dans les systèmes modernes sont généralement insignifiants. L'analyse et la synthèse peuvent être effectuées à la fois par phrase et pour l'ensemble du texte entré dans la mémoire de l'ordinateur; dans ce dernier cas, l'algorithme de traduction prévoit la définition de liens dits anaphoriques.
Les systèmes de traduction automatique actuels ciblent des paires de langues spécifiques (par exemple, français et russe ou japonais et anglais) et utilisent généralement des correspondances de traduction soit au niveau de la surface, soit à un niveau intermédiaire entre les langues d'entrée et de sortie. La qualité de la traduction automatique dépend du volume du dictionnaire, de la quantité d'informations attribuées aux unités lexicales, de la minutie de la compilation et de la vérification du fonctionnement des algorithmes d'analyse et de synthèse, et de l'efficacité du logiciel. Tout dictionnaire suffisamment bon capture non seulement des mots, mais également des combinaisons de mots fréquentes, c'est-à-dire microcontexte des unités correspondantes. Par exemple, avec le mot «réel», la combinaison «actuellement» peut être donnée - gegenwartig, actuellement, avec le mot «expérience» - la combinaison: «conduire une expérience» - Expérience, durchfiihren et la combinaison «expérimenter par» - Experiment mit (expériences sur, essai de).
Dans le même temps, un bon dictionnaire indique les combinaisons "mandat postal", "mandat" - allemand. Post "s anweisung, mandat poste français, et puisque nous n'avons pas rencontré cette combinaison, les traductions correspondantes seront exclues. (n° 18)
Le matériel et les logiciels modernes permettent l'utilisation de grands dictionnaires contenant des informations grammaticales détaillées. Les informations peuvent être présentées à la fois sous forme déclarative (descriptive) et procédurale (en tenant compte des besoins de l'algorithme).
La traduction automatique moderne doit être distinguée de l'utilisation d'ordinateurs pour aider le traducteur humain. Dans ce dernier cas, nous entendons un dictionnaire automatique qui aide une personne à sélectionner rapidement l'équivalent de traduction souhaité. Bien que dans les deux cas, l'ordinateur travaille en collaboration avec une personne (traducteur ou éditeur). Le contenu du terme « traduction automatique » comprend l'idée que la machine prend en charge l'essentiel du travail de traduction et de recherche d'équivalents de traduction et de correspondances de traduction, laissant une personne uniquement contrôler et corriger les erreurs, tandis qu'un dictionnaire informatique pour aider une personne - il s'agit uniquement d'une aide pour trouver rapidement des correspondances traduites ; en même temps, cependant, dans de tels dictionnaires, dans une mesure limitée, certaines fonctions inhérentes aux systèmes de traduction automatique peuvent également être mises en œuvre.
Dans la pratique de la traduction et dans les technologies de l'information, il existe deux approches principales de la traduction automatique. D'une part, les résultats de la traduction automatique peuvent être utilisés pour une connaissance superficielle du contenu d'un document dans une langue inconnue. Dans ce cas, il peut être utilisé comme information de signal et ne nécessite pas d'édition minutieuse. Une autre approche implique l'utilisation de la traduction automatique au lieu de l'habituel "humain". Cela implique une édition et une personnalisation minutieuses du système de traduction pour un domaine particulier. L'exhaustivité du dictionnaire, sa concentration sur le contenu et l'ensemble des moyens linguistiques des textes traduits, l'efficacité des méthodes de résolution de la polysémie lexicale, l'efficacité des algorithmes d'extraction d'informations grammaticales, la recherche de correspondances de traduction et les algorithmes de synthèse jouent ici un rôle. En pratique, une traduction de ce type devient rentable si le volume de textes traduits est suffisamment important (au moins plusieurs dizaines de milliers de pages par an), si les textes sont suffisamment homogènes, si les dictionnaires du système sont complets et permettent une extension ultérieure , et le logiciel est pratique pour la post-édition. Les systèmes de traduction automatique de ce type sont utilisés dans les organisations dont les besoins en traductions rapides et de haute qualité sont assez importants.
1.3 Systèmes de traduction automatique et leur classification.
En 1990, Larry Childs, un spécialiste de la traduction automatique, a proposé la classification suivante des systèmes de traduction automatique basée sur le principe de l'indépendance de la machine vis-à-vis des actions humaines, qui est désormais généralement accepté :
FAMT (traduction automatique entièrement automatisée) - traduction automatique entièrement automatisée ;
HAMT (traduction automatique assistée par l'homme) - traduction automatique avec la participation d'une personne ;
· MAHT (Machine - Traduction humaine assistée) - traduction effectuée par une personne à l'aide d'un ordinateur.
Les programmes de traduction automatique de la première de ces catégories sont une question d'avenir lointain, car même dans vue générale les problèmes de compréhension automatique, de traduction et de synthèse des textes ne sont pas résolus. Le principal problème est la complexité de la langue elle-même. Prenons, par exemple, la signification du mot anglais "can". En plus du sens principal du verbe auxiliaire modal, le mot "can" a plusieurs significations officielles et argotiques en tant que nom : "can", "can", "stop", "stop", "chapeau de cheminée", "prison ". De plus, il y a un sens archaïque de ce mot - "connaître ou comprendre". En supposant que la langue cible a un mot distinct pour chacune de ces valeurs, comment un ordinateur peut-il les différencier ?
Il s'avère que des progrès ont été réalisés dans le développement de programmes de traduction qui discriminent le sens en fonction du contexte. Des études plus récentes dans l'analyse de textes s'appuient davantage sur la théorie des probabilités. Néanmoins, aujourd'hui, tous les produits « en boîte » sont des traducteurs, et les services en ligne ne sont construits que selon le schéma FAMT (n° 8,15).
Les développeurs appellent les programmes de la deuxième catégorie programmes MT (de Traduction automatique - traduction automatique). La traduction automatique réellement automatisée (avec participation humaine) n'est possible que dans les conditions d'une langue artificiellement limitée, à la fois en termes de vocabulaire et de grammaire. Parlant de traduction automatique avec la participation d'une personne, cela signifie généralement l'édition de textes avant et après leur traitement par un ordinateur. Les traducteurs humains modifient les textes pour qu'ils puissent être compris par les machines. Une fois que l'ordinateur a effectué la traduction, les personnes modifient à nouveau la traduction automatique approximative, en rendant le texte correct dans la langue cible. En plus de cet ordre de travail, il existe des systèmes de traduction automatique qui nécessitent la présence constante d'un traducteur humain pendant la traduction, aidant l'ordinateur à traduire des structures particulièrement complexes ou ambiguës. La traduction automatique assistée par l'homme est applicable dans une plus large mesure aux textes avec un vocabulaire limité de sujets étroitement limités. L'économie de l'utilisation de la traduction automatique assistée par l'homme est encore discutable. Les programmes eux-mêmes sont généralement assez coûteux et certains d'entre eux nécessitent un équipement spécial pour fonctionner. Le pré et le post-montage doivent être formés. La création et la maintenance de bases de données de mots est un processus laborieux et nécessite souvent des compétences particulières.Le système allemand Meteo, qui traduit les prévisions météo du français vers l'anglais et inversement, est toujours cité comme un véritable projet réussi du programme MT.
Les programmes de traduction automatique incluent également des produits de traduction automatique de PROMT.
Les développeurs appellent les programmes de la troisième catégorie les programmes TM (de la mémoire de traduction - mémoire de traduction). Traduction effectuée par une personne utilisant un ordinateur. Avec cette approche, le traducteur humain est placé au centre du processus de traduction, tandis que le programme informatique est considéré comme un outil qui rend le processus de traduction plus efficace et la traduction précise. Voici une liste des systèmes de MT les plus connus : - Transit de la société suisse Star, - Trados (USA), - Translation Manager d'IBM, - Eurolang Optimizer de la société française LANT, - DejaVu d'ATRIL (USA), - WordFisher (Hongrie). Les systèmes de MT permettent d'exclure la traduction répétée de fragments de texte identiques. La traduction d'un segment est effectuée par le traducteur une seule fois, puis chaque segment suivant est vérifié pour une correspondance (complète ou floue) avec la base de données, et si un segment identique ou similaire est trouvé, alors il est proposé comme traduction option. Malgré la large gamme de systèmes TM, ils partagent plusieurs caractéristiques communes : - Fonction d'alignement. L'un des avantages des systèmes de MT est la possibilité d'utiliser des documents déjà traduits sur ce sujet. La base de données TM peut être obtenue par comparaison segment par segment des fichiers originaux et de traduction. - Disponibilité des filtres d'import-export. Cette propriété assure la compatibilité des systèmes de MT avec une variété de traitements de texte et de systèmes d'édition et donne au traducteur une relative indépendance vis-à-vis du client. - Mécanisme de recherche de correspondances floues ou complètes. C'est ce mécanisme qui représente le principal avantage des systèmes TM. Si, lors de la traduction d'un texte, le système rencontre un segment identique ou proche de celui précédemment traduit, alors le segment déjà traduit est proposé au traducteur comme une variante de la traduction du segment en cours, qui peut être corrigé. Le degré de correspondance floue est défini par l'utilisateur. - Prise en charge des dictionnaires thématiques. Cette fonctionnalité aide le traducteur à s'en tenir au glossaire. En règle générale, si un segment traduit contient un mot ou une phrase d'un dictionnaire thématique, il est surligné en couleur et sa traduction est proposée, qui peut être insérée automatiquement dans le texte traduit. - Moyens de recherche de fragments de texte. Cet outil est très pratique lors de l'édition d'une traduction. Si, au cours du travail, une version plus réussie de la traduction d'un fragment du texte a été trouvée, ce fragment peut être trouvé dans tous les segments TM, après quoi les modifications nécessaires sont apportées séquentiellement aux segments TM. Bien entendu, comme tout produit logiciel, les systèmes de MT ont leurs avantages et leurs inconvénients, ainsi que leur portée. Cependant, en ce qui concerne les systèmes TM, le principal inconvénient est leur coût élevé. Il est particulièrement pratique d'utiliser les systèmes TM lors de la traduction de documents tels que des manuels d'utilisation, des instructions d'utilisation, des documents de conception et commerciaux, des catalogues de produits et d'autres documents du même type avec un grand nombre de correspondances.
Les programmes TM sont souvent utilisés en conjonction avec les programmes MT. L'outil de MT le plus populaire au monde est Trados' Translation's Workbench (souvent aussi appelé Trados en abrégé).
Cependant, on a l'impression que les ressources de développement dans cette direction sont déjà pratiquement épuisées et que, sans transition vers les nouvelles technologies, une amélioration radicale de la qualité de la traduction ne peut être obtenue. Ces nouvelles technologies incluent l'implication des utilisateurs dans le processus de traduction, ainsi que :
détermination automatique du contexte d'utilisation d'un mot afin de choisir les sens du dictionnaire adéquats pour la traduction ;
utilisation de bases de connaissances contenant des informations sur le domaine concerné ;
· auto-apprentissage du système au cours de l'interaction avec l'utilisateur.
Jusqu'à récemment, de telles opportunités sur un ordinateur personnel étaient hors de question. Maintenant, la puissance et la capacité de mémoire sont déjà suffisantes, il n'y a que des systèmes qui fourniraient une bonne qualité de traduction. (№ 15)
Des produits de traduction automatique commerciaux modernes sont proposés par des entreprises nationales :
· « Vista Technologies » et « Adventis », constituées en 1991 par une équipe de développeurs qui s'est séparée de VINITI ;
· PROMT, créé en 1991 ;
"Lingua des médias".
Le plus connu des systèmes de traduction automatique exploités à l'étranger est le système SYSTRAN, développé et maintenu par SYSTRAN Software Inc. et utilisé par le service de traduction automatique de la Commission de l'Union européenne. Ce service, qui traduit environ 2,5 millions de pages par an, utilise le système SYSTRAN pour traduire de l'anglais vers l'allemand, le français, l'espagnol, le grec et l'italien, et du français vers l'anglais, l'espagnol et l'italien. Avantages du système :
le texte résultant peut être édité facilement et rapidement ;
· il est possible de traduire une grande quantité de documents scientifiques et techniques ;
Le système est « multilingue » ;
· Les solutions d'ingénierie sont assez simples (ordinateurs standards).
L'un des principaux avantages réside dans le fait que la traduction automatique garantit le respect d'une terminologie cohérente et cohérente, alors que dans la traduction humaine du vocabulaire terminologique, il y a souvent des incohérences. Cet avantage est très essentiel pour la traduction scientifique et technique. La vitesse de traduction est de 1 million de mots par heure pour l'époque (travail du processeur central.
Le système fournit une traduction correcte des diagrammes, des graphiques et d'autres inclusions non textuelles. Des changements peuvent être introduits dans l'ordinateur, par exemple, lorsque la norme de terminologie change. Les corrections des éditeurs sont également progressivement accumulées et introduites dans le dictionnaire.
L'analyseur linguistique SISTRAN comprend les quatre étapes principales suivantes. La première étape résout l'homographie. La seconde examine la phrase de droite à gauche, en se rappelant, lors du passage de mot à mot, quels types de relations syntaxiques sont potentiellement possibles au sein de chaque phrase indépendante, compte tenu des types de mots rencontrés. A partir d'un ensemble de registres contenant des données sur les types de relations syntaxiques possibles, cette étape établit ensuite les structures de base au sein de la phrase (verbe plus objet, préposition plus objet, etc.). La troisième étape, allant de gauche à droite, affine ces relations en identifiant les types d'objets, les structures définitives, etc. de ces phrases, en identifiant le sujet et le prédicat dans chacune de ces phrases.
Il convient de noter que dans certains cas, les informations peuvent être transférées d'une phrase à l'autre. Une place spéciale est réservée dans la mémoire de l'ordinateur pour ces informations. Il est particulièrement nécessaire pour la traduction des pronoms dont les antécédents peuvent se trouver dans une autre phrase. Les principales tâches exécutées par le logiciel universel SISTRAN sont les suivantes :
lecture de texte;
Décomposer le texte en mots
rechercher des mots dans divers dictionnaires;
attribution de codes de dictionnaire à des mots ou des phrases du texte ;
allocation de mémoire pour les phrases analysées ;
contrôle de la mise en œuvre des programmes de traduction ;
préparation de la traduction pour impression, émission sur microfiche, etc.
Le logiciel du système permet une vitesse de traduction de 200 000 à 300 000 mots par heure. (N° 11)
Les années 90 ont apporté avec elles le développement rapide du marché du PC (de bureau à celui de poche) et des technologies de l'information, la généralisation d'Internet (qui devient de plus en plus international et multilingue). Tout cela a rendu possible, et surtout, à la demande, la poursuite du développement des systèmes MT. Il existe de nouvelles technologies basées sur l'utilisation des réseaux de neurones, le concept de connexionnisme et les méthodes statistiques.
L'efficacité d'un système de traduction automatique moderne dépend dans une mesure décisive de son adaptation réussie à une sous-langue (ou micro-sous-langue) spécifique de la langue naturelle, à un certain vocabulaire et à un ensemble limité de moyens grammaticaux caractéristiques des textes dans un domaine donné, ainsi qu'à quant à certains types de documents. La doctrine des sous-langues du point de vue de la traduction automatique a été formulée pour la première fois par N.D. Andreev ( Université de Léningrad) en 1967, bien que les idées sur les registres de langue, les styles, les genres de texte écrit, etc. étaient bien connus en linguistique traditionnelle. La sous-langue, du point de vue de la MT, est déterminée principalement par un ensemble initial de textes, dans lequel les dictionnaires d'entrée et de sortie, le degré de distribution et la nature de l'ambiguïté lexicale des lexèmes, la nature et la prévalence de la syntaxe sont déterminés les constructions, les modalités de leur traduction dans une paire de langues donnée, etc.. le rôle est joué par les textes parallèles et les dictionnaires de concordance, à l'aide desquels il est possible d'étudier et d'utiliser efficacement la compatibilité lexicale et la distribution (distribution) des éléments de parole (discours, texte) dans la compilation d'algorithmes. Les caractéristiques statistiques des sous-langages aident à rationaliser la structure des algorithmes d'analyse et de synthèse correspondants. Le dictionnaire de sortie, axé sur les besoins de synthèse et de transmission des principaux types de correspondances dans une paire de langues particulière, fournit un texte de sortie acceptable. Tous les types modernes de traduction automatique nécessitent la participation d'un éditeur humain, dont la commodité est assurée par la qualité et la fiabilité du logiciel correspondant.
Les perspectives de développement de la traduction automatique sont associées au développement et à l'approfondissement de la théorie et de la pratique de la traduction, à la fois automatique et "humaine". Pour le développement de la théorie, les résultats de la linguistique comparée, la théorie générale de la traduction, la théorie des correspondances régulières, les modes de représentation des connaissances, l'optimisation et l'amélioration des algorithmes linguistiques sont importants. De nouveaux dictionnaires plus efficaces avec les informations de vocabulaire nécessaires, des théories strictes de la terminologie du vocabulaire, la théorie et la pratique du travail avec les sous-langues contribueront à améliorer la qualité de la traduction des unités lexicales. Les grammaires formelles axées sur la traduction permettront d'optimiser les algorithmes de recherche de correspondances de traduction dans une situation de communication donnée, qui peuvent être décrites en termes de théories appliquées pertinentes de représentation des connaissances. Enfin, les nouvelles possibilités de programmation et de technologie informatique contribueront également à l'amélioration et au développement ultérieur de la théorie et de la pratique de la traduction automatique « La traduction automatique est encore loin d'être parfaite, mais quiconque le souhaite peut aider. Peut au moins comprendre le sens fondamental du document. (Louis Monnier, directeur technique d'AltaVista.)
1.4 Qualité de la traduction automatique
"La théorie de la traduction automatique permet non seulement de revoir de manière critique tous les concepts traditionnels les plus importants de la grammaire (mots, parties du discours, membres de la phrase, etc.), mais aussi de suspendre les disputes scientifiques qui ont eu lieu autour de ces concepts. De la position dictée par la traduction automatique, « un mot est ce qui est limité par l'espacement entre les lettres », et « une phrase est ce qui est limité par certains signes de ponctuation. » (n° 12) Traduction automatique d'une langue à une autre nécessite bien une étude théorique du purement formel traduit d'une langue à l'autre, en quelque sorte elle est indifférente au sens des catégories formelles qu'elle transpose d'une langue à l'autre. (n° 4)
Ainsi, beaucoup, par exemple, de mots émotionnellement colorés ou de certaines expressions peuvent être perçus différemment par différentes personnes (sans parler de la voiture), et ces personnes représentent différentes communautés linguistiques et ethniques (n° 1). laisse beaucoup à désirer, et l'existence même de tels systèmes est encore plus correctement perçue comme un objet de recherche scientifique. Dans la plupart des cas, lorsque vous travaillez sur un projet, l'utilisation de systèmes de traduction automatique n'est pas justifiée, car : - Les systèmes de traduction automatique ne fournissent pas une qualité acceptable du texte de sortie. Une meilleure qualité peut être obtenue en pré-réglant le système, ce qui est totalement inacceptable pour de petits volumes de texte traduit, et/ou en post-éditant, ce qui ne fait que ralentir le travail si le traducteur utilise la dactylographie. - Les systèmes de traduction automatique ne garantissent pas le respect de l'unité de la terminologie, surtout lorsqu'une équipe de traducteurs travaille sur un projet important. Ou plutôt, ils peuvent le garantir sous la condition d'une manipulation très soigneuse des dictionnaires d'utilisateurs, et cela ne vaut pas toujours la peine d'y compter. Cependant, dans certains cas, l'utilisation de systèmes MP permet encore de réduire les coûts de temps. Cela se produit si le texte est assez volumineux et contient une terminologie monotone, ce qui permet d'ajuster relativement rapidement le système de traduction automatique. Ensuite, l'édition du texte ne prendra pas trop de temps. Cependant, dans ce cas, vous devez porter une attention particulière au style du texte de traduction. La traduction automatique est formelle, il y a donc une forte probabilité de tracer les structures syntaxiques de la langue d'origine, ce qui est typique de la traduction en général, et peut donc bien être ignoré lors de l'édition. D'une manière générale, les systèmes de traduction automatique peuvent très bien être utilisés là où la langue la plus standardisée avec une grammaire simple et un vocabulaire relativement restreint est utilisée. Un projet plutôt réussi du système MP est le programme allemand Meteo, qui traduit les prévisions météorologiques du français vers l'anglais et vice versa. Pour faciliter le travail des traducteurs et des rédacteurs techniques, Boeing a autrefois développé une norme linguistique pour la rédaction de documentation technique, connue sous le nom de Boeing English.
D'un point de vue philologique, la traduction est une opération auctoriale qu'un traducteur humain effectue sur un texte. Conscient de la nature de la tâche, agissant avec une certaine mesure de conscience, de tension d'attention et de volonté, le traducteur atteint l'effet communicatif voulu par l'auteur de l'original. Le traducteur crée un nouveau texte qui possède idéalement toutes les caractéristiques de l'original. La lecture préliminaire par le traducteur de l'original offre la possibilité d'appliquer un certain "effort de style", car chaque fois que le texte compilé par une personne contient certaines erreurs par rapport à la norme acceptée. Ces erreurs peuvent être le résultat de diverses raisons, mais elles sont principalement une conséquence du libre arbitre de l'orateur, qu'il utilise pour obtenir un nouvel effet, en faisant également un effort de style. En raison de violations de la norme, toute grammaire formelle ne sera pas complète et ne fournira pas une couverture complète des textes. Pour le lecteur du texte traduit, au même titre que pour le lecteur du texte original, la conscience psycholinguistique du texte est importante.
La traduction automatique est une traduction sans la paternité du traducteur. Dans la mesure où la création et la reconstitution ultérieure d'algorithmes et de dictionnaires est le travail d'une équipe, la MT est une traduction collective impersonnelle. La MT est basée sur des correspondances linguistiques purement traductionnelles, le système de MT ne peut produire aucune lecture préliminaire du texte, donc la MT exclut l'analyse textuelle. Le transfert de sens dans MP est réalisé par une transformation particulière du signe, puisque MP : est une certaine opération sur la langue, à condition que le contenu du signe soit identique. Il effectue des substitutions de synonymes mécaniques basées sur des correspondances de corrélation interlinguistiques régulières. Ces correspondances régulières ne sont pas automatiquement récupérées à partir de référentiels ou de dispositifs tels que des dictionnaires. Il est impossible de modéliser la fonction communicative d'une langue naturelle si on ne la considère que comme un système de codes ; les correspondances traductionnelles sont un élément de la dynamique de l'usage de la langue, et un système qui modélise de manière satisfaisante la traduction ne peut que considérer les correspondances traductionnelles comme des formations globales, multiniveaux, mais à chaque fois nouvelles. Ce ne sont pas les correspondances de traduction elles-mêmes qu'il convient de formaliser en tant que telles, mais les schémas par lesquels elles apparaissent dans les textes et à l'aide desquels elles peuvent être trouvées dans des détails importants et nécessaires à la traduction. Une telle formalisation est possible en modélisant les actions du traducteur, où une attention particulière est portée à l'analyse sémantico-syntaxique dans des termes proches de ceux traditionnellement compris par tous les utilisateurs de la langue (n° 11).
La machine de traduction ne fait aucun effort de style. La tâche d'appliquer ces efforts incombe au lecteur ou à l'éditeur de traduction automatique. Les opérations mécaniques que l'ordinateur effectue sur le texte sont de nature complexe : le système effectue la recombinaison la plus complète des signes et le traitement complexe de l'information de masse dans la langue. Identification, distinction et traduction entre différentes catégories de deux langues, élevage de synonymes et d'homonymes, processus de déploiement des membres de la phrase sont effectués, à la suite de quoi l'invariance des caractéristiques sémantiques essentielles du sens dans son transfert vers une autre langue est assurée .
Sur la base du concept d'organisation systémique, une attention particulière est portée au vocabulaire du PM. Puisque le dictionnaire pour MP est en même temps un dictionnaire machine, qui a des analogues dans d'autres systèmes de traitement automatique de l'information en langage naturel, il devient possible de faire des généralisations et de parler des propriétés générales des dictionnaires machine. Ces propriétés générales sont considérées par opposition aux propriétés des dictionnaires ordinaires, mais non dans un sens abstrait (dans lequel de telles contradictions peuvent être gommées de la même manière que la distinction entre une personne et une machine pensante est gommée), mais dans les représentations de la linguistique de l'ingénieur - linguistique appliquée visant à résoudre des problèmes techniques.
Pour surmonter les principales difficultés du problème de la traduction automatique, les tâches de représentation automatisée du contexte, du contenu sémantique du texte traduit, de la connaissance des concepts du domaine auquel appartient le texte traduit doivent être résolues. Dans les premiers systèmes, l'approche dite "directe" de la traduction a été mise en œuvre, dans laquelle, comme nous l'avons déjà noté, toutes les opérations effectuées pendant la traduction étaient traitées comme des opérations de transition interlinguale - la transformation du texte original en texte cible. En traduction automatique, au sens correspondant, cette approche conduit à ce que l'on appelle les "stratégies totales" (n° 10). Une caractéristique commune des stratégies totales est le désir d'obtenir une traduction automatique de haute qualité entièrement automatisée en maximisant l'utilisation du niveau sémantique de la langue. Cette approche a apporté une contribution significative à la fois à la théorie et à la pratique de la traduction automatique.
La deuxième approche est apparue chronologiquement plus tôt que la première. Cette approche repose sur le concept de langue intermédiaire et est étroitement liée à l'idée de correspondances de traduction à un niveau purement linguistique. L'essence méthodologique de cette approche est : d'étudier le comportement des unités linguistiques, en particulier dans le contexte linguistique ; dans la modélisation de la maîtrise du langage humain, en particulier dans le processus de traduction interlinguistique ; dans le passage du simple au plus complexe. De nombreux chercheurs, tels que Marchuk Yu.N., Nelyubin L.L., Revzin I.I. pensent que les logiciels de grammaire étaient basés sur des théories existantes de la structure du langage combinées à des règles conçues à la hâte.
Les programmes développés produisaient une traduction si médiocre qu'il était impossible de la comprendre. Le problème est que le sens d'un texte en langage naturel dépend non seulement de la phrase elle-même, mais aussi du contexte.
Très probablement, ces premiers projets n'ont pas vraiment produit de résultats concrets. Cependant, de nombreux problèmes majeurs de traduction de textes en langage naturel ont été identifiés : l'ambiguïté des mots et des constructions syntaxiques, l'impossibilité pratique d'une description globale de la structure sémantique du monde même dans un domaine limité, le manque de méthodes formelles efficaces pour décrivant les modèles linguistiques, etc. (n ° 8).L'état actuel de la MT se caractérise par une certaine fusion des résultats des deux approches, mais pas par une combinaison mécanique des résultats, mais par leur fusion sur la base de nouveaux modèles créés avec l'attention principale sur l'aspect traduction proprement dit de maîtrise du langage naturel. Le centre de recherche en traduction automatique moderne modélise les actions d'un traducteur humain, en particulier en termes d'utilisation de correspondances de traduction à deux et plusieurs valeurs lors de la traduction d'une langue à une autre. La MT, issue de l'extérieur de la linguistique, y est entrée principalement grâce à l'aspect important de la modélisation.La qualité de la traduction est assurée par la technologie, l'architecture multidimensionnelle des dictionnaires (deux niveaux de traduction pour chaque mot : actif et passif), le mécanisme de la mémoire associative, la création et l'édition de dictionnaires d'utilisateurs, ainsi que la connexion de dictionnaires spécialisés et généraux de gros volumes. (N° 14)
La lente amélioration de la précision de la traduction automatique est en partie due au fait qu'un tel programme a besoin d'une très grande base de données de textes pour comparer des phrases similaires et leur donner un sens (n° 19).
Dès 1956, les psychologues américains Miller et Beebe Center proposaient les méthodes suivantes pour évaluer la qualité d'une traduction :
· évaluation de la qualité de la traduction par les sujets sur une échelle stable ;
· calculer le pourcentage de mots qui correspondent dans les traductions non éditées et éditées ;
étude des réponses d'une personne qui n'a lu que la traduction aux questions posées par le texte original.
Le psychologue S. Pfafflin utilise les deux critères suivants pour évaluer la qualité d'une traduction :
Évaluer la compréhension de la traduction en posant des questions sur le texte ;
Évaluation de la clarté du sens de la traduction sur une échelle de "clair", "pas clair", "sans sens" Aucune de ces méthodes ne permet de répondre clairement à la question de savoir quels sont les critères de qualité de la traduction automatique et ce qui est le niveau de qualité acceptable. (N° 11)
ChapitreII. Système de traduction automatiquePROMT
2.1 Caractéristiques du traducteur automatique de la famille PROMT.
Depuis le début des années 1990 les développeurs nationaux entrent sur le marché des systèmes PC. En juillet 1990, le premier système de traduction automatique commercial en Russie appelé PROMT (PROgrammer's Machine Translation) a été présenté au PC Forum à Moscou. a remporté le concours de la NASA pour la fourniture de systèmes MP (PROMT était la seule société non américaine dans ce concours .) En 1992, PROMT a lancé toute une famille de systèmes sous le nouveau nom STYLUS pour la traduction de l'anglais, de l'allemand, du français, de l'italien et de l'espagnol vers le russe et du russe vers l'anglais, et le premier système MT au monde pour Windows a été créé sur la base de STYLUS en 1993. En 1994, STYLUS 2.0 est sorti pour, et en 1995-1996, la troisième génération de systèmes de traduction automatique, STYLUS 3.0 entièrement 32 bits pour Windows 95/NT, en même temps le développement de tout nouveaux systèmes mondiaux premiers systèmes MT russo-allemand et russo-français ont été achevés avec succès.
En 1997, un accord a été signé avec la société française Softissimo sur la création de systèmes de traduction du français vers l'allemand et l'anglais et vice versa, et en décembre de cette année, le premier système de traduction allemand-français au monde a été lancé. La même année, la société PROMT a lancé un système implémenté à l'aide de la technologie Giant - pour prendre en charge plusieurs directions linguistiques dans un seul shell, ainsi qu'un traducteur spécial pour travailler sur Internet WebTranSite.
En 1998, toute une constellation de programmes a été lancée sous le nouveau nom PROMT 98. Un an plus tard, PROMT a lancé deux nouveaux produits: un progiciel unique pour travailler sur Internet - PROMT Internet et un traducteur pour les systèmes de messagerie d'entreprise - PROMT Mail Traducteur. Des solutions de serveur spéciales ont également été développées pour les entreprises clientes - le serveur de traduction d'entreprise PROMT Translation Server (PTS) et la solution Internet PROMT Internet Translation Server (PITS). En 2000, PROMT a mis à jour l'ensemble du système en lançant une nouvelle génération de systèmes de traduction automatique : PROMT Translation Office 2000, PROMT Internet 2000 et Magic Gooddy 2000.
Tous les produits PROMT sont basés sur un noyau de traduction unique - un système pour analyser le texte d'entrée et synthétiser une traduction cohérente à la sortie ; ils mettent également en œuvre les principes généraux de l'automatisation de la traduction. L'éditeur linguistique PROMT vous permet de traduire des documents, de personnaliser le sujet du document et vous permet d'éditer le texte. Le programme fournit une traduction rapide, prenant en charge presque tous les éditeurs de texte. La taille du texte traduit n'est limitée que par les ressources de l'ordinateur lui-même.
Le traducteur peut être utilisé selon deux modes : sans paramètres pour une traduction rapide du brouillon (seul le dictionnaire de base est inclus) et avec des paramètres supplémentaires (connexion de dictionnaires thématiques supplémentaires) pour fournir une meilleure traduction. Le programme comprend plus de 100 dictionnaires spécialisés, ce qui permet de rendre la traduction plus précise, mais même un grand nombre de dictionnaires spécialisés ne peut pas remplacer le dictionnaire de l'utilisateur.
Une technologie unique mise en œuvre dans les dernières versions de PROMT est le mécanisme de mémoire associative (AM). Le fait est que de nombreux documents contiennent fréquemment des tours identiques et même des fragments de texte qu'il est logique de traduire une fois et d'appliquer ensuite la traduction finale. Des segments des textes originaux et traduits sont stockés dans la base de données de traduction du TA, qui sont utilisés lorsqu'il est nécessaire de traduire un fragment de texte similaire. Cela permet de former le système et de sauvegarder les résultats du travail de l'utilisateur pour une utilisation ultérieure.
Une caractéristique utile des programmes de dernière génération est la possibilité d'exclure les noms propres du processus de traduction avec la possibilité de leur translittération. Une autre façon de personnaliser consiste à sélectionner des algorithmes linguistiques. Chaque sens de traduction possède sa propre liste d'algorithmes configurables par l'utilisateur. (n° 8.5)
Le système PROMT XT propose des traductions dans les domaines suivants : anglais-espagnol, anglais-allemand, anglais-russe, anglais-français, espagnol-anglais, espagnol-russe, espagnol-français, italien-russe, allemand-anglais, allemand-russe , allemand-français, russe-anglais, russe-allemand, russe-français, français-anglais, français-espagnol, français-allemand, français-russe. Langue de l'interface système : anglais, russe, français, allemand.
Le système offre les fonctionnalités supplémentaires suivantes :
o édition d'entrées de dictionnaire dans des dictionnaires personnalisés (sauf pour certains mots particuliers : prépositions, conjonctions, pronoms, certaines formes homonymes) ;
o déterminer la hiérarchie des dictionnaires connectés (s'il existe plusieurs options de traduction, le système sélectionne une traduction du dictionnaire dont la priorité est définie par l'utilisateur comme la plus élevée) ;
o rechercher des traductions dans des dictionnaires électroniques (uniquement pour les sens anglais-russe et russe-anglais) ;
o détection automatique des sujets de texte (par mots-clés) et connexion de dictionnaires spéciaux ;
o mise en place d'algorithmes de traduction pour certaines constructions (par exemple, traduction de l'anglais you par "you", "you" ou "you" ;
o inclusion de préprocesseurs (permettant de ne pas traduire certains éléments spéciaux, tels que les noms de fichiers, les adresses e-mail et les pages Web) ;
o définition des mots réservés (par exemple, termes, noms propres) qui ne seront pas traduits par le programme
o utilisation des bases de données de traduction à mémoire associative (une version simplifiée de la technologie de mémoire de traduction).
Le dernier développement de la société PROMT, un traducteur électronique Bureau PROMTXT est le premier produit à implémenter un nouveau concept de traduction automatique basé sur la technologie Associated Memory. Un nouveau niveau d'algorithmes linguistiques améliore la qualité de la traduction d'au moins 55 % des phrases.
PROMT XT Office résout les tâches suivantes:
· Traduction de documents dans les formats suivants : DOC, RTF, TXT, HTML. Pour la première fois, la possibilité de traduire des documents au format Adobe Acrobat a été mise en place.
· Le travail confortable avec des documents en langue étrangère dans les applications Microsoft Word, Excel, PowerPoint est assuré par l'intégration du programme dans les applications MS Office 2000/XP et Microsoft Office System 2003.
· Traduction d'e-mails.
· Traduction en ligne de sites Web avec mise en forme préservée. (N° 9)
Directions de la traduction : anglais<->russe allemand<->russe, français<->russe, espagnol<->russe, italien -> russe, géant (angl.<->russe, allemand<->russe, français<->Russe)
Principales caractéristiques du système de traduction :
· Traduction de documents des principaux formats : DOC, RTF, HTML, TXT.
· Préserver la mise en forme lors de la traduction.
· Enregistrement du résultat de la traduction dans des fichiers de format : RTF et TXT.
· Traduire des documents PDF directement dans Adobe Acrobat 4.x/5.x et Adobe Acrobat Reader 4.x/5.x.
· Intégration des fonctions de traduction dans toutes les principales applications Microsoft Office 2000/XP (Word, Excel, PowerPoint, FrontPage) et Microsoft Office System 2003*.
· Traduction d'e-mails. Traduction automatique des e-mails dans Microsoft Outlook. Routage des e-mails par dossiers.
o Tout pour l'InternetTraduction en ligne de sites Web avec mise en forme préservée.
o Traduction des requêtes pour les moteurs de recherche et envoi au serveur spécifié.
o Paramètres de traduction basés sur la technologie SmartURL - le programme lui-même mémorise les paramètres de traduction de la page. Lorsque vous visitez à nouveau la page, les paramètres de traduction sont restaurés.
o Création de sites en langue étrangère dans FrontPage à l'aide de modules de traduction intégrés.
· Traduction du contenu du tampon du Presse-papiers de Windows.
· Algorithmes intelligents d'auto-apprentissage du système lors de l'utilisation de la mémoire associée. Mémoire associée (AP) - fonctionne sur le principe de l'accumulation : dans le processus de traduction, le segment d'origine (phrase ou partie de celle-ci) et sa traduction sont enregistrés. Lors de la connexion à la base de données AP, le système compare chaque offre avec les segments stockés dans la base de données. Si un segment identique à l'original est trouvé, il peut être utilisé pour la traduction.
· Puissant éditeur linguistique PROMT, offrant la possibilité d'une gestion interactive des traductions.
o Outils d'édition de traduction pratiques - "défilement" synchrone de l'original et de sa traduction. Mise en évidence en couleur des fragments associés dans l'original et la traduction.
o Traduction instantanée de n'importe quel mot lors du déplacement du curseur de la souris. Voir toutes les traductions et formes de mots du mot sélectionné.
o Algorithmes intelligents pour la détection automatique de la langue et du sujet du texte.
o Enregistrement des options de traduction dans les modèles de thème.
Amélioration de la qualité de la traduction grâce aux paramètres personnels :
o Possibilité de connecter des dictionnaires spécialisés produits par PROMT pour divers domaines;
o Création et réapprovisionnement de vos propres dictionnaires utilisateurs.
o Créez une liste de mots réservés. Réservation de mots avec un format spécifié, comme ceux en italique. Réservation de fragments de texte sélectionnés.
o Définir des signes de translittération de mots inconnus.
o Sélection d'algorithmes de traduction (modes de traduction de certaines constructions de langage qui ne peuvent pas être contrôlés en modifiant les données du dictionnaire).
o Connexion de macros pour le traitement du texte source et du texte traduit.
o Utilisation des bases de mémoire associée (AM).
· Un outil efficace pour personnaliser les dictionnaires - Dictionary Editor :
o Possibilité d'afficher, de modifier, de copier, de supprimer et de restaurer des entrées de dictionnaire à partir de dictionnaires utilisateur.
o Différents modes d'accès au contenu des entrées du dictionnaire - "Débutant" et "Spécialiste".
o Algorithmes intelligents de reconstitution des dictionnaires.
o Réapprovisionnement simultané des dictionnaires associés dans les deux sens.
o Possibilité d'entrer dans le dictionnaire à partir d'un fichier texte et d'exporter les entrées du dictionnaire vers un fichier texte ou un document RTF.
· Un grand dictionnaire électronique pour traduire des mots individuels (implémenté pour les directions de traduction anglais-russe, russe-anglais, français-russe, russe-français, allemand-russe et russe-allemand).
· Prise en charge des programmes de numérisation externes, des correcteurs orthographiques et des dictionnaires électroniques.
· Text-to-speech si vous avez une synthèse vocale compatible text-to-speech (TTS) installée sur votre ordinateur. (No. 22,23)
Les produits logiciels de PROMT ont reçu de nombreux prix nationaux et étrangers et sont objectivement les meilleurs programmes de traduction automatique de notre pays.
2.2 Analyse comparative des traductions de textes littéraires et politiques faites par un système de traduction automatique et humaine.
Pour mieux comprendre les principes des systèmes de traduction automatique, les méthodes d'utilisation des dictionnaires, l'analyse de la grammaire et la synthèse des structures dans la langue cible, il est nécessaire de mener plusieurs expériences pratiques et de traduire des textes (de préférence de style et de sujet différents) en utilisant l'un des systèmes de traduction automatique.
Pour comparer la traduction d'un texte littéraire, le système de traduction automatique PROMT XT sera utilisé. Ce texte sera également traduit et une analyse comparative des résultats sera faite.
Commençons par un extrait du conte "Le Petit Prince" en anglais :
"Le petit prince s'en alla, pour revoir les roses.
"Tu n'es pas du tout comme ma rose," dit-il. "Tu n'es encore rien. Personne n'a apprivoisétoi, et tu n'as dompté personne. Et les roses étaient très gênées.
"Tu es belle, mais tu es vide," continua-t-il. "On ne pouvait pas mourir pour toi. Êtrebien sûr, un passant ordinaire penserait que ma rose vous ressemble - la rose qui m'appartient. Mais en elle-même, elle est plus importante que toutes les centaines d'autres roses. Et il retourna à la rencontre du renard. "Au revoir," dit le renard. « Et voici maintenant mon secret, un secret très simple : ce n'est qu'avec le cœur qu'on peut voir juste ; l'essentiel est invisible pour les yeux.
"L'essentiel est invisible pour les yeux", répétait le petit prince, afin qu'ilassurez-vous de vous souvenir.
"C'est le temps que vous avez perdu pour votre rose qui rend votre rose si importante."
"C'est le temps que j'ai perdu pour ma rose..." dit le petit prince, pour qu'il soitsûr de se souvenir.
« Les hommes ont oublié cette vérité », dit le renard. "Mais tu ne dois pas l'oublier. Tu deviensresponsable, pour toujours, de ce que tu as apprivoisé. Vous êtes responsable de votre rose..."
"Je suis responsable de ma rose", répéta le petit prince, pour être sûr dese souvenir."(№ 16)
Voici la traduction du traducteur de ce passage :
Le petit prince est allé voir les roses.
Vous n'êtes en rien comme ma rose, leur dit-il. - Tu n'es rien. Personne ne t'a apprivoisé, et tu n'as apprivoisé personne. Et les roses étaient très confuses.
Tu es belle, mais vide, - continua le Petit Prince. - Personne ne veut mourir pour toi. Bien sûr, un passant au hasard, regardant ma rose, dira que c'est exactement la même que toi. Mais elle seule m'est plus chère que vous tous
Et le Petit Prince revint au Renard.
Adieu... - dit-il.
Adieu, dit le Renard. - Voici mon secret, il est très simple : seul le cœur est vigilant. Vous ne pouvez pas voir la chose la plus importante avec vos yeux.
- Lui-même On ne voit pas l'essentiel avec les yeux », répétait le Petit Prince, pour mieux se souvenir.
Votre rose vous est si chère parce que vous lui avez donné toutes vos journées.
Parce que je lui ai donné toutes mes journées... - répétait le Petit Prince, pour mieux se souvenir.
Les gens ont oublié cette vérité, - dit le Renard, - mais n'oubliez pas : vous êtes à jamais responsable de tous ceux que vous avez apprivoisés. Vous êtes responsable de votre rose.
Je suis responsable de ma rose... - répétait le Petit Prince, pour mieux se souvenir.
Dans certaines phrases, nous avons dû changer l'ordre des mots. Plusieurs mots ont été "jetés" de la traduction, car leur absence ou leur présence n'affecte pas le sens et le style de la traduction. Mais en même temps, ça peut "couper l'oreille" parce qu'ils ne parlent pas "russe" comme ça. Et voici comment la traduction du même passage a été faite par le système PROMT XT.
« Le petit prince est parti, regarde encore les roses.
"Tu n'es pas du tout comme ma rose," dit-il. "Pour l'instant tu n'es rien. Personne ne t'a apprivoisé, et tu n'as apprivoisé personne..."
Et les roses étaient très inquiètes. "Tu es belle, mais tu es vide", a-t-il poursuivi. "On ne peut pas mourir pour toi. Certes, un passant ordinaire penserait que ma rose ressemble à ta rose, qui m'appartient. Mais à elle seule, elle est plus importante que toutes les centaines d'autres roses. ...
"Et il revint rencontrer le renard.
"Au revoir," dit le renard. "Et maintenant, voici mon secret, un secret très simple : seul le cœur peut voir équitablement ; l'essentiel est invisible pour les yeux."
"L'essentiel est invisible pour les yeux", répétait le petit prince, pour être sûr de se souvenir
"C'est le temps que vous avez perdu pour votre rose qui rend votre rose si importante."
"C'est du temps que j'ai perdu pour ma rose..." dit le petit prince, pour qu'il s'en souvienne à coup sûr.
« Les hommes ont oublié cette vérité », dit le renard. "Mais tu ne dois pas l'oublier. Tu deviens responsable, pour toujours, de ce que tu as apprivoisé.
Vous êtes responsable de votre rose..."
"Je suis responsable de ma rose", répéta le petit prince, pour être sûr de s'en souvenir.
Comme on peut le voir, la traduction du texte se fait mot à mot. Le programme ne peut pas échanger des mots dans des phrases, c'est-à-dire que dans la langue de sortie, l'ordre des mots est presque toujours le même que dans l'entrée. La traduction du mot « rose » est aussi très frappante, j'en conviens, le mot « rose » est très ambigu. Mais même le dictionnaire donne le premier sens lors de la traduction du mot "rose", alors que le système ne le propose même pas en option. Mais en même temps, le système traduit correctement le mot "rose", au pluriel "roses", (sans tenir compte du fait que "roses" - n, pl, AmE, sl "Il utilise des roses - Il va à la pharmacie" ). Évidemment, dans ce contexte, le mot doit être traduit par "rose", mais le système ne peut pas analyser le contexte et ne peut donc pas choisir correctement l'équivalent. Confond les mots "Vous" écrits avec une majuscule, évidemment dans les paramètres de cet utilisateur le mot "vous" doit être traduit par "Vous" avec une majuscule. Pas comme "vous" ou "vous". Mais dans cette version du programme, cela est facilement réparable, il suffit de modifier les paramètres de l'utilisateur actuel. Le mot "look" est traduit par "look", sans considérer qu'il peut également être traduit par "look", ce qui est préférable dans ce cas. L'expression "en elle seule" se traduit par "en elle seule". Naturellement, tout le monde sait que les noms anglais ont perdu la catégorie grammaticale du genre. Par conséquent, ils sont tous d'accord avec le pronom 3ème personne du singulier "ça" - neutre. En russe, la catégorie de genre est présente dans les noms. L'omission du système est l'impossibilité d'un accord de genre dans la langue cible. Les mots "rose" en russe sont féminins. Les mots indiqués entre parenthèses sont les options de traduction des mots (second sens) que le système laisse au choix de l'éditeur du traducteur. Le mot "à juste titre" est traduit dans le premier sens, sans options supplémentaires. C'est la même chose avec le mot "essentiel". Le mot "gaspillé" donné non sous sa forme initiale est traduit par le dictionnaire électronique ABBY Lingvo par : "gaspillé" adj. - épuisé ; émacié, maigre; rabougri; pâle; dans le même texte, il faudrait le traduire par « dépensé », « donné ».
A ce stade du travail, il convient de comparer les traductions faites depuis l'anglais avec les traductions depuis le français (langue d'origine) afin d'identifier clairement si les mêmes problèmes de grammaire et de vocabulaire existent lors d'une traduction depuis le français.
Le petit prince s"en fut revoir les roses :
"Vous n"êtes pas du tout semblable à ma rose, vous n"êtes rien encore, leur dit-il. Personne ne vous a apprivoisé et vous n'avez apprivoisé personne.
Et les roses étaient bien gênées.
"Vous êtes belles, mais vous êtes vides, leur dit-il encore. On ne peut pas mourir pour vous. Bien sûr, ma rose à moi, un passant ordinaire croirait qu'elle vous ressemble. Mais à elle seule elle est plus importante que vous toutes
Et il revint vers le renard :
"Adieu, dit-il...
Adieu, dit le renard. Voici mon secret. Il est très simple : on ne voit bien qu'avec le cœur. L'essentiel est invisible pour les yeux.
L'essentiel est invisible pour les yeux, repéta le petit prince, afin de se souvenir.
C'est le temps que tu as perdu pour ta rose qui fait ta rosé si importante.
C "est le temps que j" ai perdu pour ma rose..., fit le petit prince, afin de se souvenir.
Les hommes ont oublié cette vérité, dit le renard. Mais tu ne dois pas l'oublier. Tu deviens responsable pour toujours de ce que tu as apprivoisé. Tu es responsable de ta rose...
Je suis responsable de ma rose...”, repéta le petit prince, afin de se souvenir. (N ° 5)
Traduction faite par le traducteur :
« Le petit prince est allé voir les roses.
Vous n'êtes en rien comme ma rose, leur dit-il. - Tu n'es rien. Personne ne t'a apprivoisé, et tu n'as apprivoisé personne.
Et les roses étaient très confuses.
Tu es belle, mais vide, dit-il enfin. Personne ne veut mourir pour toi. Bien sûr, un passant au hasard, regardant ma rose, dira que c'est exactement la même que toi. Mais elle seule m'est plus chère et plus importante que vous tous.
Et le Petit Prince revint au Renard.
Adieu... - dit-il.
Adieu, dit le Renard. - Voici mon secret, il est très simple : vous ne pouvez voir qu'avec votre cœur. La chose la plus importante est invisible pour les yeux.
L'essentiel est invisible pour les yeux, répétait le Petit Prince, pour mieux se souvenir.
Le fait que vous ayez donné autant de temps à votre rose la rend spéciale.
Parce que je lui ai donné tellement de temps… » répéta le petit prince, pour mieux se souvenir.
Les gens ont oublié cette vérité, - dit le Renard, - mais n'oubliez pas : vous êtes à jamais responsable de tous ceux que vous avez apprivoisés. Vous êtes responsable de votre rose.
Je suis responsable de ma rose... - répétait le Petit Prince, pour mieux se souvenir.
Traduction faite par le système PROMT du français vers le russe :
Le petit prince devait revoir des roses :
« Vous n'êtes pas comme ma rose, vous n'êtes rien d'autre, leur dit-il. Personne ne vous a apprivoisé et vous n'avez apprivoisé personne.
"Et les roses étaient très timides.
"Tu es belle, mais tu es vide, leur en dit plus. On ne peut pas mourir pour toi. Bien sûr, ma rose, un passant ordinaire penserait qu'elle te ressemblerait. Mais seulement elle est plus imporêtante pour elle que tu sont tous
Et il revint vers le renard :
« Au revoir, dit-il
Au revoir, dit le renard. Voici mon secret. C'est très simple : on ne voit bien qu'avec c et * 339 ; votre. Une partie importante est invisible à l'œil.
L'essentiel est invisible pour les yeux, répétait le petit prince, afin de se souvenir.
C'est le temps que vous avez perdu pour votre rose qui rend votre rose si importante.
C'était le temps que j'ai perdu pour ma rose, faite le petit prince, pour me souvenir.
Les gens ont oublié cette vérité, dit le renard. Mais il ne faut pas l'oublier. Vous devenez responsable à jamais de ce que vous avez apprivoisé.
Tu es responsable de ta rose - je suis responsable de ma rose", répétait le petit prince, afin de se souvenir.
En général, la traduction est tout à fait correcte, le sens général du passage est clair. La traduction se fait également mot à mot, ce qui nous confirme que le système ne peut pas changer l'ordre des mots dans la langue cible. Le système n'a pas pu traduire 2 mots, il en a translittéré un et en a remplacé un par un code numérique du fait que l'expression « que avec le cœur » s'écrit « qu`avec le cœur ». La voyelle "e" est toujours abandonnée dans de tels cas, et est tronquée en écriture. De même que lors de la traduction à partir de l'anglais, des incohérences de genre sont trouvées dans la langue de sortie (russe). Bien que le système ait été écrit par des spécialistes russophones. La traduction de certaines phrases donne à penser qu'elle a été traduite par une personne qui parle peu le russe. La synthèse n'est pas le problème. structure grammaticale langue de sortie, mais dans une méconnaissance de la structure de la langue d'entrée, c'est-à-dire, en fait, dans l'analyse grammaticale. En principe, le système traduit relativement correctement les phrases simples, les phrases subordonnées complexes, complexes - composées ou complexes - sont également traduites relativement facilement. Mais si une construction introductive ou explicative est rencontrée et que la phrase principale est brisée, alors le programme commence une traduction mot à mot, sans tenir compte de la syntaxe, en essayant simplement de relier les mots. Ainsi, l'option de sortie est très complexe et déroutante. Mais même si vous écrivez des algorithmes pour toutes ces règles, sans comprendre le texte saisi, la traduction restera parfois complètement incohérente.
Conclusion.
On peut en conclure que la traduction automatique entièrement automatique est une tâche très difficile à résoudre non seulement par les linguistes, mais aussi par les programmeurs, les spécialistes de la cybernétique et de nombreux autres représentants des sciences concernées par ce problème. Il est très difficile de modéliser le processus de traduction lui-même avec un programme informatique. Si une personne, tout en traduisant, pense en images et part de ce que la pensée devrait finalement être transmise à l'auditeur, il est alors impossible d'enseigner ce programme (à ce stade du développement de la technologie informatique.
Les programmes de traduction automatique modernes sont très loin de l'idéal auquel aspire leur développement. Mais ils peuvent sans aucun doute être d'une grande aide pour le traducteur dans son travail de routine. Au moins le fait qu'ils peuvent sans problème faire une traduction interlinéaire de n'importe quel texte en termes de complexité et de volume en quelques secondes. Si, en même temps, la répartition des dictionnaires prioritaires pour un sujet donné et le sens de traduction sont correctement configurés, alors en sortie, l'édition éditoriale doit être minimale (par rapport à la traduction avec un dictionnaire de vocabulaire général connecté). Naturellement, il est impossible de remettre complètement le texte entre les mains de la machine. Les systèmes de nouvelle génération peuvent "se souvenir" des constructions qui ont déjà été traduites une fois et qui par la suite n'ont plus besoin d'être retraduites. Les systèmes sont efficaces pour aider les utilisateurs aussi parce qu'il est possible de créer un dictionnaire "personnalisé", ce qui facilite grandement la traduction sur un sujet spécifique.
Mais encore, les inconvénients des systèmes de traduction automatique, à mon avis, sont plus que des avantages. Le principal inconvénient est, bien sûr, le dictionnaire. Le programme ne prend pas en compte les significations élémentaires des mots et ne les propose pas en option lors de la traduction. Ainsi, cela oblige l'utilisateur à rechercher ces formes de mots dans le dictionnaire, ce qui atteint l'un des principaux avantages du système, selon les fabricants, - la rapidité. Les lacunes de la grammaire. Ces défauts se retrouvent aussi bien dans l'analyse de la langue d'entrée que dans la synthèse dans la langue de sortie. Les caractéristiques grammaticales des langues d'entrée et de sortie, telles que, par exemple, le genre des noms en russe et son absence en anglais, ne sont pas prises en compte. En règle générale, le système effectue également une analyse syntaxique à l'entrée, mais si la phrase ne correspond pas à l'algorithme spécifié par le programme, le système démarre la traduction mot à mot sans prêter attention aux liens syntaxiques.
Après avoir examiné ce problème, je suis arrivé à la conclusion que la traduction automatique est, en principe, possible, mais qu'elle ne doit être considérée que comme une version « brouillon » de la traduction, qui est soumise à une édition obligatoire.
Bibliographie
Sources de la littérature en russe
1. Arapov MV Shreider Yu.A. Sémantique et traduction automatique. M., 1965. N° 1
2. Barkhudarov L.S. Langue et traduction. - Menthe. Relations, 1975.
3. Belonogov G.G. Zelenkov Yu.G. Système interactif de traduction automatique russe-anglais et anglais-russe, VINITI, 1993
4. Bulletin de l'Université de Moscou. Ser.19 Linguistique et communication interculturelle. 2004. N° 4, p.51.
5. Ordinateur domestique - 2004., n ° 12
6. Kanichev M. Article. // PC World. - 1998, n°8.
7. Komissarov V.N. "Traductologie moderne", ETS, M. 2004.p.411.
8. Appuyez sur l'ordinateur. - 2004. N° 7
9. Appuyez sur l'ordinateur. – 2004. -№11
10. Lyudskanov A. Stratégie sélective en traduction automatique. - Dans : Séminaire international sur la traduction automatique. M., PCV, 1975
11. Marchuk Yu. N. Problèmes de traduction automatique. Moscou : Nauka, 1983
12. Documents sur la traduction automatique. Problème. 1. L., 1958. p.5.
13. Traduction automatique. Recueil d'articles, traduit de l'anglais, M., 1957
14. Le monde informatique. - 2004. - N° 9
15. Monde d'Internet. - 2001. N° 2, p. 16-26.
16. Minyar - Belorouchev A.P., anglais. Manuel d'interprétation. M., "Examen", 2004
17. Panov D.Yu., Traduction automatique, M., 1958
18. Revzin. I., V.Yu. Rosenzweig. Principes fondamentaux de la traduction générale et automatique., 1964.
19. Technique - jeunesse. - 2005. N° 2.
20. Chalyapina Z.M. "La traduction automatique : évolution et tendances modernes" questions de linguistique, 1996, n°2
Sources de la littérature en langues étrangères
2. Dezso L., Papp F. Mécanisation du travail lexicographique et dictionnaires inversés. – Dans : Linguistique computationnelle, III, pp. 212 - 215
3. Antoine de Saint-Exupéry. Le petit prince.,M.,Jupiter-inter, 2003
4. Visson L., Du russe à l'anglais, Ardis, 1991
Sources électroniques
5. Dictionnaire électronique ABBY LINGVO 9.0
Si vous êtes intéressé par une aide à ÉCRIRE EXACTEMENT VOTRE TRAVAIL, selon les besoins individuels - il est possible de commander une assistance dans le développement du sujet présenté - Traduction automatique Système de traduction automatique PROMT ... ou similaire. Nos prestations seront déjà couvertes par des révisions gratuites et un accompagnement jusqu'à la soutenance à l'université. Et il va sans dire que votre travail sera vérifié sans faute pour le plagiat et garanti de ne pas être publié plus tôt. Pour commander ou estimer le coût d'un travail individuel, rendez-vous sur
Pour commencer, quelques dates importantes dans l'histoire de la traduction automatique doivent être marquées :
1947 - date de naissance de la traduction automatique en tant que direction scientifique. Warren Weaver, directeur de la Division des sciences naturelles de la Fondation Rockefeller, a écrit une lettre à Norbert Wiener dans laquelle il considérait la tâche de traduction de textes d'une langue à une autre comme un autre domaine d'application de la technique de déchiffrement. Cette lettre a été suivie de nombreuses discussions. 1947 - A. Booth et D. Britten développent un "code" détaillé pour la traduction automatique mot à mot. 1948 - R. Richens propose des règles pour diviser les formes de mots en un radical et une terminaison. 1952 - Première conférence sur la traduction automatique au Massachusetts Institute of Technology. 1954 - le premier système de traduction automatique a été introduit - IBM Mark II - russe-anglais, avait un dictionnaire de 250 unités et 6 règles de grammaire. La décennie qui a suivi a été une période de développement rapide de la traduction automatique. 1967 - La Commission de l'Académie nationale des sciences spécialement créée aux États-Unis, sur la base de la situation réelle des traductions aux États-Unis et des indicateurs de coût des différentes méthodes de traduction, est parvenue à la conclusion que la traduction automatique n'est pas rentable. Le rapport a considérablement ralenti le développement du MT dans son ensemble. 70 - une nouvelle montée en puissance dans le domaine de la MP. Avec le développement de la technologie informatique, de nouvelles possibilités d'implémentation automatique d'algorithmes linguistiques sont apparues. Années 80 - le temps de fonctionnement des ordinateurs personnels est devenu beaucoup moins cher, la traduction automatique est enfin devenue économiquement viable. 90 - il y a une autre augmentation de l'intérêt pour la traduction automatique, qui est associée à l'émergence et au développement rapide d'Internet. Les capacités de traduction en ligne vous permettent de surmonter la barrière de la langue et de naviguer sur des sites étrangers.
Examinons maintenant ces faits plus en détail :
Ainsi, pour la première fois, l'idée de la possibilité d'une traduction automatique a été exprimée par Charles Babbage (1791-1871), qui l'a développé en 1836-1848. projet d'une machine analytique numérique - un prototype mécanique d'ordinateurs numériques électroniques apparu 100 ans plus tard. L'idée de Charles Babbage était qu'une mémoire de 1000 nombres décimaux de 50 bits (50 engrenages dans chaque registre) pourrait être utilisée pour stocker des dictionnaires. C. Babbage a cité cette idée pour justifier de demander au gouvernement britannique les fonds nécessaires à la réalisation physique du moteur analytique, qu'il n'a jamais réussi à construire (voir Apokin et al. Charles Babbage. M., Nauka, 1981).
L'idée d'utiliser des ordinateurs pour la traduction a été émise en 1946, immédiatement après l'apparition des premiers ordinateurs. La date de naissance de la MT en tant que domaine d'étude est généralement considérée comme étant 1947 : tout a commencé par une lettre de Warren Weaver, directeur du département des sciences naturelles de la Fondation Rockefeller, à Norbert Wiener en mars de cette année-là, dans laquelle le tâche de traduction a été comparée à la tâche de déchiffrer des textes. Ce dernier à cette époque avait déjà commencé à être réalisé sur des appareils électromécaniques. Cette lettre a été suivie de nombreuses discussions, un mémorandum d'objectifs est apparu et, enfin, des fonds ont été alloués à la recherche. La première démonstration publique de traduction automatique (l'expérience dite de Georgetown) a eu lieu en 1954. Malgré le caractère primitif de ce système (dictionnaire de 150 mots, grammaire de 6 règles, traduction de plusieurs phrases simples), cette expérience a reçu un large écho. : la recherche a commencé en Angleterre, en Bulgarie, en Allemagne de l'Est, en Italie, en Chine, en France, en Allemagne, au Japon et dans d'autres pays ; dans le même 1954 en URSS.
La première génération de systèmes de traduction automatique était basée sur des algorithmes de traduction séquentielle "mot à mot", "phrase par phrase". Les capacités de ces systèmes étaient déterminées par les tailles de dictionnaires disponibles, qui dépendaient directement de la quantité de mémoire de l'ordinateur. La traduction du texte a été réalisée en phrases séparées, les liens sémantiques entre elles n'ont en aucun cas été pris en compte. De tels systèmes sont appelés systèmes de traduction directe. Au fil du temps, ils ont été remplacés par des systèmes des générations suivantes, dans lesquels la traduction d'une langue à l'autre s'effectuait au niveau des structures syntaxiques. Les algorithmes de traduction ont utilisé un ensemble d'opérations qui, en analysant la phrase traduite, construisent sa structure syntaxique selon les règles de grammaire de la langue de la phrase d'entrée (tout comme les enfants apprennent la langue au lycée), puis la transforment en la structure syntaxique de la phrase de sortie et synthétiser la phrase de sortie, en remplaçant les bons mots du dictionnaire. De tels systèmes sont appelés systèmes en T (du mot anglais transfert - transformation).
L'approche la plus parfaite est considérée comme l'approche de construction de systèmes de traduction automatique basée sur l'obtention d'une représentation sémantique indépendante de la langue de la phrase d'entrée au moyen de son analyse sémantique. Ensuite, la phrase de sortie est synthétisée selon la représentation sémantique obtenue. De tels systèmes sont appelés systèmes I (I - du mot "interlingua"). On pense que les prochaines générations de systèmes de traduction automatique appartiendront à la classe des systèmes I.
Cependant, il y avait trop de difficultés et d'ambiguïtés sur la façon de formaliser et de construire des algorithmes pour travailler avec des textes, quels dictionnaires devraient être entrés dans la machine, quels modèles linguistiques devraient être utilisés dans la traduction automatique et quels sont ces modèles en général.
Il s'est avéré que la linguistique traditionnelle n'a ni le matériel réel, ni les idées et les représentations nécessaires pour construire des systèmes de traduction automatique qui utiliseraient le sens du texte traduit.
La linguistique traditionnelle ne pouvait pas donner d'idées initiales non seulement en termes de sémantique, mais aussi en termes de syntaxe. À cette époque, il n'existait aucune liste de constructions syntaxiques pour aucune langue, les conditions de leur compatibilité et de leur interchangeabilité n'étaient pas étudiées, les règles de construction de grandes unités de structure syntaxique à partir de plus petites n'étaient pas développées. En fait, pas une seule question posée à propos de la construction des systèmes de traduction automatique ne pouvait être résolue par la linguistique traditionnelle dans les années 1950.
Et au milieu des années 1960, deux systèmes ont été fournis pour une utilisation pratique aux États-Unis Traduction russe-anglais:
- · MARK (au Département de la technologie étrangère de l'US Air Force) ;
- · GAT (développé par l'Université de Georgetown, utilisé au National Atomic Energy Laboratory à Oak Ridge et au Centre Euratom à Ispra, Italie).
Cependant, la commission ALPAC créée pour évaluer de tels systèmes est arrivée à la conclusion qu'en raison de la faible qualité des textes traduits par machine, cette activité n'est pas rentable aux États-Unis. Bien que la commission ait recommandé de poursuivre et d'approfondir les développements théoriques, en général, ses conclusions ont conduit à une augmentation du pessimisme, à une diminution des financements et souvent à un arrêt complet des travaux sur ce sujet.
Néanmoins, la recherche s'est poursuivie dans un certain nombre de pays, aidée par les progrès constants de la technologie informatique. Un facteur particulièrement important a été l'émergence des mini-ordinateurs et des ordinateurs personnels, et avec eux des dictionnaires, des recherches et d'autres systèmes de plus en plus complexes axés sur le travail avec des données en langage naturel. Le besoin de traduction en tant que tel a également augmenté en raison de la croissance des relations internationales. Tout cela a conduit à un nouvel essor dans ce domaine, qui s'est concrétisé à partir du milieu des années 1970. Dans les années 1980, le moment est venu de généraliser l'utilisation pratique des systèmes de traduction, et un marché pour les développements commerciaux sur ce sujet a émergé.
Cependant, les rêves avec lesquels l'humanité s'est lancée dans la tâche de la traduction automatique il y a un demi-siècle restent en grande partie des rêves : la traduction de haute qualité de textes sur un large éventail de sujets est toujours inaccessible. Cependant, l'accélération du travail du traducteur lors de l'utilisation de systèmes de traduction automatique est incontestable : selon les estimations de la fin des années 1980, jusqu'à cinq fois. En 1990, Larry Childs, spécialiste de la traduction automatique, a proposé la classification suivante des systèmes de traduction automatique :
- · FAMT (traduction automatique entièrement automatisée) - traduction automatique entièrement automatisée ;
- · HAMT (traduction automatique assistée par l'homme) - traduction automatique avec la participation d'une personne ;
- · MAHT (Traduction humaine assistée par machine) - traduction effectuée par une personne à l'aide d'un ordinateur.
Actuellement, il existe de nombreux projets commerciaux de traduction automatique. L'un des pionniers dans le domaine de la traduction automatique a été Systran. En Russie, un groupe dirigé par le professeur Piotrovsky (Université pédagogique d'État russe du nom de Herzen, Saint-Pétersbourg) a apporté une grande contribution au développement de la traduction automatique.
Matériel préparé par A. A. Taraskin
La traduction informatique est une tâche scientifique difficile mais intéressante. Sa principale difficulté réside dans le fait que les langues naturelles sont difficiles à formaliser. D'où la faible qualité du texte obtenu à l'aide des systèmes MP, dont le contenu et la forme font invariablement l'objet de blagues. Cependant, l'idée de la traduction automatique remonte à loin. Pour la première fois, l'idée de la possibilité d'une traduction automatique a été exprimée par Charles Babbage, qui l'a développé en 1836-1848. projet de moteur d'analyse numérique. L'idée de Charles Babbage était qu'une mémoire de 1000 nombres décimaux de 50 bits (50 engrenages dans chaque registre) pourrait être utilisée pour stocker des dictionnaires. C. Babbage a cité cette idée comme justification pour demander au gouvernement britannique les fonds nécessaires à l'incarnation physique de la machine analytique, qu'il n'a jamais réussi à construire.
Et 100 ans plus tard, en 1947, W. Weaver (directeur du département des sciences naturelles de la Fondation Rockefeller) a écrit une lettre à Norbert Wiener. Dans cette lettre, il proposait d'utiliser la technique du déchiffrement pour traduire des textes. Cette année est considérée comme l'année de naissance de la traduction automatique. La même année, un algorithme de traduction mot à mot a été développé et, en 1948, R. Richens a proposé une règle pour diviser un mot en une racine et une terminaison. Au cours des deux décennies suivantes, les systèmes de traduction automatique se sont développés rapidement. En janvier 1954, le premier système de traduction automatique IBM Mark II a été présenté sur une machine IBM 701. Mais en 1967, une commission spécialement créée de l'Académie nationale des sciences des États-Unis a reconnu la traduction automatique comme non rentable, ce qui a considérablement ralenti la recherche dans ce domaine. La traduction automatique a connu un nouvel essor dans les années 70, et dans les années 80, elle est devenue économiquement rentable en raison du faible coût relatif du temps machine.
Cependant, en URSS, les recherches dans le domaine de la traduction automatique se sont poursuivies. Après avoir fait la démonstration du système IBM Mark II, un groupe de scientifiques de VINITI a commencé à développer un système de traduction automatique pour la machine BESM. Le premier échantillon de traduction de l'anglais vers le russe a été reçu à la fin de 1955.
Une autre direction de travail est née au Département de mathématiques appliquées de l'Institut de mathématiques de l'Académie des sciences de l'URSS (aujourd'hui l'Institut de mathématiques appliquées M. V. Keldysh, Académie des sciences de Russie) à l'initiative de A. A. Lyapunov. Les premiers programmes de traduction automatique développés par cette équipe ont été implémentés sur la machine Strela. Grâce aux travaux sur la création de systèmes de traduction automatique, une direction telle que la linguistique appliquée a pris forme.
Dans les années 70, un groupe de développeurs de VINITI RAS a travaillé sur la création de systèmes MT sous la direction du prof. G. G. Belonogov. Leur premier système MP a été développé en 1993, et en 1996, après un certain nombre d'améliorations, il a été enregistré auprès de ROSAPO sous le nom de Retrans. Ce système était utilisé par les ministères de la défense, des communications, de la science et de la technologie.
Des études parallèles ont été menées dans le laboratoire d'ingénierie linguistique de l'Institut pédagogique d'État de Leningrad. A. I. Herzen (maintenant l'Université pédagogique). Ce sont eux qui ont formé la base du système MP désormais le plus populaire "PROMT". Les dernières versions de ce produit logiciel utilisent des technologies à forte intensité scientifique et sont construites sur la base de la technologie avancée des réseaux de transition et du formalisme des réseaux neuronaux.
Classification des systèmes de traduction automatique selon Larry Child
Les nouveaux membres du forum de langues étrangères de CompuServe demandent souvent si quelqu'un peut recommander un bon programme de traduction automatique à un prix raisonnable.
La réponse à cette question est invariablement "non". Selon le répondant, la réponse peut contenir deux arguments principaux : soit que les machines ne peuvent pas traduire, soit que la traduction automatique coûte trop cher.
Ces deux arguments sont valables dans une certaine mesure. Cependant, la réponse est loin d'être aussi simple. Lors de l'étude du problème de la traduction automatique (MT), il est nécessaire de considérer séparément les différentes sous-sections de ce problème. La division suivante est basée sur les conférences de Larry Childs données à la Conférence internationale sur la communication technique de 1990 :
Traduction entièrement automatique ;
Traduction automatique avec participation humaine ;
Traduction effectuée par une personne utilisant un ordinateur.
Traduction automatique entièrement automatisée
Ce type de traduction automatique est ce que la plupart des gens entendent lorsqu'ils parlent de traduction automatique. Le sens ici est simple : un texte dans une langue est entré dans l'ordinateur, ce texte est traité et l'ordinateur sort le même texte dans une autre langue. Malheureusement, la mise en place de ce type de traduction automatique se heurte à certains obstacles qui doivent encore être surmontés.
Le principal problème est la complexité de la langue elle-même. Prenons, par exemple, le sens du mot "peut". En plus du sens principal du verbe auxiliaire modal, le mot "can" a plusieurs significations officielles et argotiques en tant que nom : "bank", "latrine", "prison". De plus, il y a un sens archaïque de ce mot - "connaître ou comprendre". En supposant que la langue cible a un mot distinct pour chacune de ces valeurs, comment un ordinateur peut-il les différencier ?
Il s'avère que des progrès ont été réalisés dans le développement de programmes de traduction qui discriminent le sens en fonction du contexte. Des études plus récentes dans l'analyse de textes s'appuient davantage sur la théorie des probabilités. Cependant, la traduction automatique entièrement automatisée de textes dont le sujet est vaste reste une tâche impossible.
Traduction automatique automatique avec participation humaine.
Ce type de traduction automatique est maintenant tout à fait faisable. Parlant de traduction automatique avec la participation d'une personne, cela signifie généralement l'édition de textes avant et après leur traitement par un ordinateur. Les traducteurs humains modifient les textes pour qu'ils puissent être compris par les machines. Une fois que l'ordinateur a effectué la traduction, les personnes modifient à nouveau la traduction automatique approximative, en rendant le texte correct dans la langue cible. En plus de cet ordre de travail, il existe des systèmes de traduction automatique qui nécessitent la présence constante d'un traducteur humain pendant la traduction, aidant l'ordinateur à traduire des structures particulièrement complexes ou ambiguës.
La traduction automatique assistée par l'homme est applicable dans une plus large mesure aux textes avec un vocabulaire limité de sujets étroitement limités.
L'économie de l'utilisation de la traduction automatique assistée par l'homme est encore discutable. Les programmes eux-mêmes sont généralement assez coûteux et certains d'entre eux nécessitent un équipement spécial pour fonctionner. Le pré et le post-montage doivent être appris, et ce n'est pas un travail agréable. La création et la maintenance de bases de données de mots est un processus laborieux et nécessite souvent des compétences particulières. Cependant, pour une organisation traduisant de gros volumes de textes dans un domaine bien défini, la traduction automatique assistée par l'homme peut être une alternative assez rentable à la traduction humaine traditionnelle.
Traduction par un humain à l'aide d'un ordinateur
Avec cette approche, le traducteur humain est placé au centre du processus de traduction, tandis que le programme informatique est considéré comme un outil qui rend le processus de traduction plus efficace et la traduction précise. Ce sont des dictionnaires électroniques ordinaires qui fournissent une traduction du mot requis, rendant la personne responsable du choix de la bonne option et de la signification du texte traduit. De tels dictionnaires facilitent grandement le processus de traduction, mais nécessitent que l'utilisateur ait une certaine connaissance de la langue et consacre du temps à sa mise en œuvre. Et pourtant, le processus de traduction lui-même est grandement accéléré et facilité.
Parmi les systèmes qui aident le traducteur dans son travail, la place la plus importante est occupée par les systèmes dits de mémoire de traduction (MT). Les systèmes de MT sont un outil interactif pour accumuler des paires de segments de texte équivalents dans les langues d'origine et traduites dans une base de données avec la possibilité de leur recherche et de leur édition ultérieures. Ces produits logiciels n'ont pas vocation à utiliser des technologies de l'information hautement intelligentes, mais, au contraire, reposent sur l'utilisation du potentiel créatif du traducteur. Au cours de son travail, le traducteur constitue lui-même la base de données (ou la reçoit d'autres traducteurs ou du client), et plus elle contient d'unités, plus le retour sur son utilisation est important.
Voici une liste des systèmes TM les plus connus :
Société suisse de transit Star,
Trados (États-Unis),
Responsable de la traduction d'IBM,
Eurolang Optimizer de la société française LANT,
DejaVu d'ATRIL (États-Unis),
WordFisher (Hongrie).
Les systèmes de MT permettent d'exclure la traduction répétée de fragments de texte identiques. La traduction d'un segment est effectuée par le traducteur une seule fois, puis chaque segment suivant est vérifié pour une correspondance (complète ou floue) avec la base de données, et si un segment identique ou similaire est trouvé, alors il est proposé comme traduction option.
Actuellement, des développements sont en cours pour améliorer les systèmes TM. Par exemple, le cœur du système Transit de Star est basé sur la technologie des réseaux neuronaux.
Malgré la large gamme de systèmes TM, ils partagent quelques caractéristiques communes :
Fonction d'alignement. L'un des avantages des systèmes de MT est la possibilité d'utiliser des documents déjà traduits sur ce sujet. La base de données TM peut être obtenue par comparaison segment par segment des fichiers originaux et de traduction.
Disponibilité des filtres d'import-export. Cette propriété assure la compatibilité des systèmes de MT avec une variété de traitements de texte et de systèmes d'édition et donne au traducteur une relative indépendance vis-à-vis du client.
Mécanisme de recherche de correspondances floues ou complètes. C'est ce mécanisme qui représente le principal avantage des systèmes TM. Si, lors de la traduction d'un texte, le système rencontre un segment identique ou proche de celui précédemment traduit, alors le segment déjà traduit est proposé au traducteur comme une variante de la traduction du segment en cours, qui peut être corrigé. Le degré de correspondance floue est défini par l'utilisateur.
Prise en charge des dictionnaires thématiques. Cette fonctionnalité aide le traducteur à s'en tenir au glossaire. En règle générale, si un segment traduit contient un mot ou une phrase d'un dictionnaire thématique, il est surligné en couleur et sa traduction est proposée, qui peut être insérée automatiquement dans le texte traduit.
Moyens de recherche de fragments de texte. Cet outil est très pratique lors de l'édition d'une traduction. Si, au cours du travail, une version plus réussie de la traduction d'un fragment du texte a été trouvée, ce fragment peut être trouvé dans tous les segments TM, après quoi les modifications nécessaires sont apportées séquentiellement aux segments TM.
Bien entendu, comme tout produit logiciel, les systèmes de MT ont leurs avantages et leurs inconvénients, ainsi que leur portée. Cependant, en ce qui concerne les systèmes TM, le principal inconvénient est leur coût élevé.
Il est particulièrement pratique d'utiliser les systèmes TM lors de la traduction de documents tels que des manuels d'utilisation, des instructions d'utilisation, des documents de conception et commerciaux, des catalogues de produits et d'autres documents du même type avec un grand nombre de correspondances.
Systèmes de traduction automatique (MT)
Conformément à la classification ci-dessus, le but de ce travail est d'étudier et d'analyser les systèmes MT du deuxième groupe, puisque les systèmes MT du premier groupe n'existent pas encore dans la nature, et les systèmes du troisième groupe, essentiellement , ne sont pas des systèmes de traduction automatique, mais rappellent davantage les dictionnaires électroniques.
Les systèmes MP effectuent la traduction automatique du texte. Dans ce cas, les unités de traduction sont des mots ou des phrases, et les derniers développements permettent de prendre en compte la morphologie du mot traduit. Les systèmes de traduction automatique développés effectuent la traduction selon les algorithmes de traduction spécifiés par le développeur et/ou ajustés par l'utilisateur.
Pour effectuer la traduction automatique, un programme spécial est introduit dans l'ordinateur qui implémente l'algorithme de traduction, qui est compris comme une séquence d'actions définies sans ambiguïté et strictement sur le texte pour trouver des correspondances de traduction dans une paire donnée de langues L1 - L2 pour un sens de traduction donné (d'une langue spécifique vers une autre). Le système de traduction automatique comprend des dictionnaires bilingues fournis avec les informations grammaticales nécessaires (morphologiques, syntaxiques et sémantiques) pour assurer le transfert des correspondances de traduction équivalentes, variantes et transformationnelles, ainsi que des outils algorithmiques d'analyse grammaticale mettant en œuvre l'une quelconque des grammaires formelles adoptées pour la traduction automatique. traitement de texte. . Il existe également des systèmes de traduction automatique autonomes conçus pour traduire dans trois langues ou plus, mais ils sont actuellement expérimentaux.
La plus courante est la séquence d'opérations formelles suivante qui fournit une analyse et une synthèse dans un système de traduction automatique :
1. Lors de la première étape, le texte est saisi et les formes de mots saisies sont recherchées (mots sous une forme grammaticale spécifique, par exemple cas datif pluriel) dans le dictionnaire d'entrée (dictionnaire de la langue à partir de laquelle la traduction est faite) accompagnée d'une analyse morphologique, au cours de laquelle l'appartenance de cette forme de mot à un certain lexème (mot comme unité du dictionnaire) est établie. Dans le processus d'analyse, des informations relatives à d'autres niveaux d'organisation du système linguistique peuvent également être obtenues à partir de la forme du mot.
2. L'étape suivante comprend la traduction de phrases idiomatiques, d'unités phraséologiques ou de timbres d'un domaine donné (par exemple, dans la traduction anglais-russe, des phrases comme en cas de, conformément à reçoivent un seul équivalent numérique et sont exclues d'autres analyse grammaticale); détermination des principales caractéristiques grammaticales (morphologiques, syntaxiques, sémantiques et lexicales) des éléments du texte d'entrée (par exemple, le nombre de noms, le temps verbal, les fonctions syntaxiques des formes de mots dans ce texte, etc.) réalisées dans le texte d'entrée langue; résolution de l'homographie (homonymie de conversion des formes de mots - par exemple, le rond anglais peut être un nom, un adjectif, un adverbe, un verbe ou une préposition) ; analyse lexicale et traduction de lexèmes. Habituellement, à ce stade, les mots à valeur unique sont séparés des mots polysémantiques (ayant plus d'un équivalent de traduction dans la langue cible), après quoi les mots à valeur unique sont traduits selon des listes d'équivalents, et des dictionnaires dits contextuels sont utilisés. pour traduire des mots polysémantiques dont les entrées de dictionnaire sont des algorithmes d'interrogation du contexte en présence/absence de déterminants de valeur de contexte.
3. L'analyse grammaticale finale, au cours de laquelle les informations grammaticales nécessaires sont déterminées, en tenant compte des données de la langue cible (par exemple, avec des noms russes comme traîneau, ciseaux, le verbe doit être au pluriel, malgré le fait que l'original peut avoir un numéro singulier).
4. Synthèse des formes de mots de sortie et des phrases en général dans la langue cible.
En fonction des caractéristiques de la morphologie, de la syntaxe et de la sémantique d'une paire de langues particulière, ainsi que du sens de la traduction, l'algorithme général de traduction peut inclure d'autres étapes, ainsi que des modifications de ces étapes ou de leur ordre, mais des variations de ce type dans les systèmes modernes sont généralement insignifiants. L'analyse et la synthèse peuvent être effectuées à la fois par phrase et pour l'ensemble du texte entré dans la mémoire de l'ordinateur; dans ce dernier cas, l'algorithme de traduction prévoit la définition de liens dits anaphoriques (par exemple, la connexion d'un pronom avec le nom qu'il remplace - disons, le pronom im avec le pronom mot dans cette explication elle-même entre parenthèses).
Actuellement, il existe deux concepts pour le développement de systèmes MT :
1. Le modèle d'un « grand dictionnaire avec une structure complexe », qui est intégré dans la plupart des programmes de traduction modernes ;
2. Le modèle « sens-texte », formulé pour la première fois par A.A. Lyapunov, mais n'a encore été implémenté dans aucun produit commercial.
À ce jour, les systèmes de traduction automatique les plus connus sont
PROMT 2000/XT par PROMT ;
Retrans Vista par Vista et Advantis ;
Socrates - un ensemble de programmes de la société Arsenal.
Actuellement, la qualité de la traduction automatique laisse à désirer, et l'existence même de tels systèmes est encore plus justement perçue comme un objet de recherche scientifique. Dans la plupart des cas, lorsque vous travaillez sur un projet, l'utilisation de systèmes MT n'est pas justifiée, car :
Les systèmes MT ne fournissent pas une qualité de texte de sortie acceptable. Une meilleure qualité peut être obtenue en pré-configurant le système (les produits de la série PROMT XT offrent à l'utilisateur de nombreuses opportunités pour cela), ce qui est totalement inacceptable pour de petits volumes de texte traduit, et/ou par une édition ultérieure, et cela ne fait que ralentir la fonctionner si le traducteur utilise la méthode aveugle print.
Les systèmes de traduction automatique ne garantissent pas le respect de l'unité de la terminologie, en particulier lorsqu'une équipe de traducteurs travaille sur un projet important. Ou plutôt, ils peuvent le garantir sous la condition d'une manipulation très soigneuse des dictionnaires d'utilisateurs, et cela ne vaut pas toujours la peine d'y compter.
Cependant, dans certains cas, l'utilisation de systèmes MP permet encore de réduire les coûts de temps. Cela se produit si le texte est assez volumineux et contient une terminologie monotone, ce qui permet d'ajuster relativement rapidement le système de traduction automatique. Ensuite, l'édition du texte ne prendra pas trop de temps. Cependant, dans ce cas, vous devez porter une attention particulière au style du texte de traduction. La traduction automatique est formelle, il y a donc une forte probabilité de tracer les structures syntaxiques de la langue d'origine, ce qui est typique de la traduction en général, et peut donc bien être ignoré lors de l'édition.
D'une manière générale, les systèmes de traduction automatique peuvent très bien être utilisés là où la langue la plus standardisée avec une grammaire simple et un vocabulaire relativement restreint est utilisée. Un projet plutôt réussi du système MP est le programme allemand Meteo, qui traduit les prévisions météorologiques du français vers l'anglais et vice versa. Pour faciliter le travail des traducteurs et des rédacteurs techniques, Boeing a autrefois développé une norme linguistique pour la rédaction de documentation technique, connue sous le nom de Boeing English.
Système MP Retrans Vista
Les systèmes de traduction automatique de textes d'une langue naturelle à une autre simulent le travail d'un traducteur humain. Leur efficacité dépend d'abord de la mesure dans laquelle elles prennent en compte les lois objectives du fonctionnement du langage et de la pensée. Malheureusement, ces lois sont encore insuffisamment étudiées. Lors de la résolution du problème de la traduction automatique, il est nécessaire de prendre en compte la riche expérience de la communication internationale et l'expérience des activités de traduction accumulées par l'humanité. Et cette expérience montre que dans le processus de traduction, les phrases phraséologiques exprimant des concepts intégraux, et non des mots individuels, sont avant tout considérées comme les principales unités de sens. Ce sont les concepts qui sont ces images mentales élémentaires, à l'aide desquelles vous pouvez construire des images mentales plus complexes qui correspondent au texte traduit.
Convenons d'appeler les systèmes de traduction automatique, dans lesquels non des mots individuels, mais des phrases phraséologiques, sont considérés comme les unités minimales de base de sens, des systèmes de traduction automatique phraséologique. Dans ces systèmes, des mots individuels peuvent également être utilisés, mais ils sont considérés comme des unités de sens auxiliaires, auxquelles il faut recourir faute de meilleures.
Le système de traduction automatique phraséologique devrait inclure une base de connaissances contenant des équivalents de traduction pour les phrases, les combinaisons phraséologiques et les mots individuels les plus courants, ainsi que des outils logiciels pour l'analyse et la synthèse morphologiques et syntaxiques de textes et pour l'édition humaine. Dans le processus de traduction de textes, le système utilise les équivalents de traduction stockés dans sa base de connaissances dans l'ordre suivant : premièrement, une tentative est faite pour traduire la phrase entière en tant qu'unité intégrale ; en outre, en cas d'échec, les phrases incluses dans sa composition ; et, enfin, une traduction mot à mot des fragments de texte qui n'ont pas pu être traduits par les deux premières méthodes est effectuée. Les fragments du texte de sortie obtenus par les trois méthodes doivent être grammaticalement cohérents les uns avec les autres (en utilisant les procédures de synthèse morphologique et syntaxique).
Les principes de construction de systèmes de traduction automatique phraséologique de textes ont été formulés pour la première fois en 1975 dans la préface du livre de D. Joukov "Nous sommes des traducteurs". Sous une forme plus complète, ils ont été présentés en 1983 dans le livre de G. G. Belonogov et B. A. Kuznetsov "Language Means of Automated Information Systems". Enfin, en 1993, deux articles ont été publiés décrivant un système de traduction automatique basé sur ces principes et méthodes pour la compilation automatisée de dictionnaires bilingues à partir de textes parallèles (russe et anglais). Les plus importants de ces principes sont :
1. Les unités de base du langage et de la parole, qui doivent avant tout être incluses dans le dictionnaire machine, doivent être des unités phraséologiques (combinaisons de mots, phrases). Des mots séparés peuvent également être inclus dans le dictionnaire, mais ils ne doivent être utilisés que dans les cas où il n'est pas possible de traduire uniquement sur la base d'unités phraséologiques.
2. En plus des unités phraséologiques constituées de séquences continues de mots, les systèmes de traduction automatique doivent également utiliser les soi-disant "modèles vocaux" - des unités phraséologiques avec des "espaces vides" qui peuvent être remplis de divers mots et phrases, générant des segments de parole significatifs .
3. Les textes réels, quelle que soit leur appartenance à l'un ou l'autre domaine thématique, sont généralement polythématiques s'ils ont un volume suffisamment important. Par conséquent, un dictionnaire automatique destiné à traduire des textes même d'un seul domaine devrait être polythématique, et plus encore pour traduire des textes de différents domaines. Il devrait être créé, tout d'abord, sur la base du traitement automatisé des textes bilingues qui sont des traductions les uns des autres, et dans le processus de fonctionnement des systèmes de traduction.
4. Parallèlement au dictionnaire polythématique principal d'un grand volume, il est conseillé d'utiliser un ensemble de petits dictionnaires thématiques supplémentaires dans les systèmes de traduction automatique phraséologique. Les dictionnaires supplémentaires ne doivent contenir que les informations qui ne figurent pas dans le dictionnaire principal (par exemple, des informations sur les équivalents de traduction prioritaires des phrases et des mots pour divers domaines).
Sur la base des principes décrits, VINITI RAS (voir ci-dessus) a construit deux systèmes de traduction automatique phraséologique :
1) Système de traduction russe-anglais (RETRANS)
2) Système de traduction anglais-russe (ERTRANS).
Les deux systèmes ont la même structure et approximativement le même volume de dictionnaires automatiques. Par conséquent, nous ne considérerons que le premier système.
Le système RETRANS a les caractéristiques suivantes :
1. Portée, objet, Fonctionnalité. Le système est conçu pour la traduction automatisée de textes scientifiques et techniques du russe vers l'anglais. Le dictionnaire automatique polythématique russe-anglais du système contient la terminologie des sciences naturelles et techniques, de l'économie, des affaires, de la politique, de la législation et des affaires militaires. En particulier, il contient des termes et des unités phraséologiques dans les domaines suivants : Génie mécanique, Génie électrique, Énergie, Transport, Aéronautique. Cosmonautique, Robotique, Automatisme et Radioélectronique, Génie informatique, Communications, Mathématiques, Physique, Chimie, Biologie, Médecine, Écologie, Agriculture, Construction et Architecture, Astronomie, Géographie, Géologie, Géophysique, Mines, Métallurgie, etc.
La traduction de textes peut être effectuée en mode automatique et interactif.
2. Le volume du dictionnaire polythématique machine : plus de 1 300 000 entrées de dictionnaire ; 77% d'entre eux sont des phrases de deux à dix-sept mots. Le volume de dictionnaires automatiques supplémentaires (pour configurer le système pour divers domaines) est supérieur à 200 000 entrées.
Système MP PROMT XT
Les produits logiciels PROMT sont basés sur la résolution des problèmes fondamentaux suivants :
Tout d'abord, il est clair pour tout le monde que plus le dictionnaire est grand, meilleure est la traduction, ce qui signifie que le premier problème est le problème de la création de grands dictionnaires pour les systèmes.
Deuxièmement, il est clair que le système doit traduire des phrases du type : BONJOUR, COMMENT VA TU ? Cela signifie qu'un autre problème est d'apprendre au système à reconnaître les révolutions stables.
Troisièmement, il est clair qu'une phrase à traduire est écrite selon certaines règles, elle est traduite selon certaines règles, ce qui signifie qu'il y a un problème de plus : écrire toutes ces règles sous la forme d'un programme. C'est en fait tout.
La chose la plus intéressante est que ces problèmes sont en effet les principaux dans le développement des systèmes de traduction automatique, mais une autre chose est que les méthodes pour les résoudre sont loin d'être connues de tous et ne sont en aucun cas aussi simples qu'elles pourraient le paraître.
Les méthodes d'organisation de grandes bases de données sont assez bien développées, mais pour la traduction, il est tout aussi important, et peut-être même plus important, de structurer correctement les informations attribuées à un élément de la base de données, de choisir correctement cet élément. Combien, par exemple, d'entrées dans le dictionnaire doivent correspondre au mot russe ordinaire "programme" ? Et, en général, un grand dictionnaire est-il un dictionnaire qui contient de nombreuses entrées de dictionnaire, ou un dictionnaire qui vous permet de reconnaître de nombreux mots à partir d'un texte ? Évidemment, la seconde est plus vraie. Par conséquent, pour décrire à la fois les langues d'entrée et de sortie dans le système, il doit exister une méthode formelle de description de la morphologie, sur laquelle repose le choix d'une unité de dictionnaire.
Dans presque tous les systèmes qui prétendent être considérés comme des systèmes de traduction, le problème de la représentation des modèles morphologiques est résolu d'une manière ou d'une autre. Mais certains systèmes peuvent reconnaître un million de formes de mots avec un volume de dictionnaire de cinquante mille entrées de dictionnaire, tandis que d'autres avec un volume de dictionnaire de cent mille entrées de dictionnaire peuvent reconnaître ces centaines de milliers.
Dans les systèmes de la famille PROMT, une description morphologique, presque unique dans son exhaustivité, a été développée pour toutes les langues que les systèmes peuvent gérer. Il contient 800 types d'inflexions pour la langue russe, plus de 300 types pour l'allemand et le français, et même pour l'anglais, qui n'appartient pas aux langues flexionnelles, plus de 250 types d'inflexions ont été identifiés. L'ensemble des terminaisons pour chaque langue est stocké sous forme de structures arborescentes, ce qui fournit non seulement une méthode de stockage efficace, mais également un algorithme d'analyse morphologique efficace.
De plus, le modèle de morphologie utilisé a permis de développer un système expert pour l'utilisateur - le créateur du dictionnaire. Ce système automatise en fait la procédure de mise en évidence de la racine et de détermination du type d'inflexion lors de la saisie de nouvelles entrées de dictionnaire.
Cette option n'est disponible dans aucun des systèmes existants traduction automatique, même dans des systèmes courants tels que Power Translator (Globalink, États-Unis), Language Assistant (MicroTac, États-Unis), TRANSEND (Intergaph, États-Unis), où les utilisateurs doivent conjuguer et décliner manuellement les mots pour définir un modèle morphologique.
Cependant, l'élaboration d'une description morphologique ne permet de résoudre que le problème de savoir quel est l'en-tête d'une entrée de dictionnaire, par lequel l'unité textuelle et l'unité de dictionnaire sont identifiées. Mais après tout, l'identification d'un mot d'un texte avec une entrée de dictionnaire ne se produit pas pour des raisons d'identification, comme cela est requis dans les orthographes ou les dictionnaires électroniques, il est nécessaire que le programme exécute les procédures de traduction proprement dites. Quelles informations sont nécessaires dans une entrée de dictionnaire et comment les règles de traduction doivent-elles être décrites pour que le programme traduise ?
Dans de nombreux systèmes de traduction automatique par le passé (comme ils le sont d'ailleurs aujourd'hui), la description du vocabulaire et la description de l'algorithme étaient considérées comme les faces d'un même problème, mais la solution, en règle générale, était recherchée dans la restriction du monde considéré, soit grammaticalement ou sémantique. Par exemple, à partir de l'attribut « appartenant à une partie du discours », une grammaire de ce type a été décrite :
le groupe nominal est un nom
syntagme nominal est un adjectif + syntagme nominal
le groupe verbal est le verbe + le syntagme nominal
la phrase est un groupe nominal + un groupe verbal
Il est clair qu'une partie des phrases en langage naturel est décrite par une telle grammaire, mais cette partie est très insignifiante et, sur sa base, il est impossible d'analyser et de traduire correctement au moins un texte réel. Mais vous pouvez utiliser méthodes efficaces construire un convertisseur selon une grammaire donnée, ou, au pire, écrire un programme qui, par énumération, construira un arbre de dépendances pour un ensemble limité de phrases. De tels systèmes ont reçu les définitions "expérimental" de la même manière.
D'une manière ou d'une autre, mais c'est à partir de tels projets que sont apparus les systèmes de traduction, qui sont désormais proposés à l'utilisateur final. Il s'agit de Power Translator (société Globallink) et Language Assistant (société MicroTac) et TRANSEND (société Intergraph).
Les systèmes des familles STYLUS et PROMT ne font pas exception, car de nombreux spécialistes PROMT avaient de l'expérience dans ce type de projets. Cependant, lors du développement des systèmes PROMT, une approche véritablement révolutionnaire a été appliquée pour la première fois, ce qui a permis d'obtenir des résultats impressionnants. Les systèmes de traduction de la famille PROMT sont des systèmes conçus sur la base de méthodes non pas linguistiques, mais cybernétiques.
Il s'est avéré qu'il est très productif de considérer le système de traduction non pas comme un traducteur, dont la tâche est de traduire un texte acceptable du point de vue de la grammaire d'entrée, mais comme un système complexe, dont la tâche est d'obtenir des résultats pour données d'entrée arbitraires, y compris pour les textes qui ne sont pas corrects pour la grammaire avec laquelle le système travaille.
Au lieu de l'approche linguistique acceptée, qui implique l'attribution de processus séquentiels d'analyse et de synthèse d'une phrase, l'architecture du système était basée sur la représentation du processus de traduction comme un processus avec une organisation "orientée objet" basée sur une hiérarchie de composants de phrase traités. Cela a rendu les systèmes PROMT durables et ouverts.
De plus, cette approche a permis d'utiliser différents formalismes pour décrire la traduction différents niveaux. Les systèmes fonctionnent également avec des grammaires de réseau, de type similaire aux réseaux de transition étendus, et des algorithmes procéduraux pour remplir et transformer les structures de trame afin d'analyser des prédicats complexes.
La description d'un élément lexical dans une entrée de dictionnaire, dont la taille est en fait illimitée et peut contenir de nombreuses caractéristiques différentes, est étroitement liée à la structure des algorithmes du système et n'est pas structurée sur la base de la syntaxe d'antithèse éternelle - la sémantique, mais sur la base des niveaux des composants textuels.
Dans le même temps, les systèmes peuvent fonctionner avec des entrées de dictionnaire incomplètement décrites, ce qui est un point important lors de l'ouverture de dictionnaires pour l'utilisateur, à qui on ne peut pas exiger une manipulation subtile du matériel linguistique.
Le premier système de traduction automatique, publié par PROMT en 1991, traduisait des textes de logiciels spécialisés de l'anglais vers le russe. Elle utilisait un petit dictionnaire - environ 17 000 mots et expressions, travaillait dans un environnement DOS et ne disposait pas d'outils de personnalisation utilisateur. Mais même ce premier système était correctement organisé et la technologie actuelle de développement d'algorithmes de traduction automatique utilisée par PROMT n'a pas subi de changements significatifs. Au contraire, l'approche trouvée alors s'est avérée très fructueuse pour une variété de langues.
Tout d'abord, expliquons quelques définitions : parallèlement au développement de la traduction automatique en tant que domaine de la linguistique appliquée, des classifications de systèmes sont également apparues, et il est devenu courant de diviser les systèmes de traduction en systèmes de type TRANSFER et en systèmes de type INTERLINGUA. Cette division est basée sur les particularités des solutions architecturales pour les algorithmes linguistiques.
Les algorithmes de traduction pour les systèmes de type TRANSFER sont construits comme une composition de trois processus : analyse de la phrase d'entrée en fonction des structures de la langue d'entrée, transformation de cette structure en une structure similaire de la langue de sortie (TRANSFER) puis synthèse de la phrase de sortie en fonction de la structure résultante.
Les systèmes de type INTERLINGUA supposent a priori la présence d'un certain métalangage de structures (INTERLINGUA), dans lequel il est possible de décrire toutes les structures des langues d'entrée et de sortie dans le cas général; par conséquent, l'algorithme de traduction dans un système comme INTERLINGUA est supposé plus simple : analyse de la phrase d'entrée en termes de métalangage puis synthèse à partir de la métastructure de la phrase correspondante de la langue de sortie. La "seule" difficulté dans ce cas est de développer le métalangage lui-même et de décrire le langage naturel en termes appropriés.
Malgré le fait que cette classification existe et qu'il est de bon ton pour les développeurs de traduction automatique de se demander quel est le type de système PROMT, aucun système réel basé sur le principe INTERLINGUA n'a encore été développé.
Le système PROMT ne fait pas exception, et nous répondons à cette question : notre système effectue un transfert de type TRANSFER. Mais c'est une réponse très simple, elle ne reflète pratiquement pas l'architecture du système PROMT. Et les particularités sont que cette méthode (TRANSFERT) est appliquée dans le système non conforme à l'approche standard linguistique.
Le fait est que le système de traduction, en règle générale, fonctionne dans des conditions de données incomplètement décrites, car la langue est un système vivant qui se développe très rapidement: de nouveaux mots apparaissent constamment, de nouvelles fonctions d'anciens mots et, avec de nouvelles entités, de nouvelles valeurs. Dans ces conditions, la propriété structurelle déterminante des algorithmes de traduction est leur résistance aux données d'entrée arbitraires, et au lieu du TRANSFERT séquentiel "a, les algorithmes qui effectuent la traduction dans le système PROMT sont basés sur une approche hiérarchique qui divise le processus de traduction en TRANSFER interconnectés. pour différentes unités d'analyse.
Le système distingue le niveau des unités lexicales, le niveau des groupes, le niveau des phrases simples et le niveau Phrases complexes. Tous ces processus sont connectés et interagissent hiérarchiquement conformément à la hiérarchie des unités de texte, échangeant des caractéristiques synthétisées et héritées. Un tel agencement d'algorithmes permet d'utiliser différentes méthodes formelles pour décrire des algorithmes de différents niveaux.
Considérons le niveau des unités lexicales : une unité lexicale est un mot ou une phrase qui est l'unité du niveau le plus bas. Tant dans le cas de la langue d'entrée que dans le cas de la langue de sortie, le mot est décrit comme une combinaison de radical et de terminaison. Cela fournit, d'une part, la reconnaissance des mots d'entrée et l'analyse de la morphologie d'entrée et, d'autre part, une synthèse pratique des mots de sortie en fonction de leurs informations morphologiques (racine, type d'inflexion et adresse de fin dans un tableau de terminaisons de ce taper). Ainsi, si l'on introduit des règles de transformation des informations morphologiques d'entrée en informations morphologiques de sortie, le TRANSFERT s'effectue au niveau morphologique.
Le niveau groupe considère des structures plus complexes : groupes de noms, adjectifs, adverbes et formes verbales complexes. Ce niveau d'analyse, basé sur des grammaires de réseau formelles, est capable de connecter des groupes en unités syntaxiques, chacune étant caractérisée par des informations structurelles synthétisées et l'élément principal du groupe. Selon la structure d'entrée obtenue en termes de composants directs, ainsi que les caractéristiques synthétisées, le groupe de sortie est formé comme un ensemble d'unités lexicales avec les valeurs des caractéristiques morphologiques qui peuvent être héritées en fonction des résultats de l'analyse de groupe. Ainsi, TRANSFER est mis en œuvre au niveau du groupe.
L'analyse des phrases simples en tant que structures constituées d'unités syntaxiques s'effectue sur la base de structures de prédicats cadres, qui permettent des transformations efficaces. Le verbe est considéré comme l'élément principal des phrases simples et sa valence détermine le remplissage du cadre correspondant. Pour chaque type de cadres, il existe une certaine loi de transformation dans le cadre de sortie et la conception des actants. Ainsi, TRANSFER est effectué au niveau de la phrase. L'analyse de phrases complexes est nécessaire dans le cas de la formation de l'accord des temps et de la traduction correcte des unions.
21 août 2016
En 1954, un ordinateur IBM 701 occupant plusieurs pièces avait un vocabulaire de 250 mots et quelques règles simples pour traduire avec précision 60 phrases du russe vers l'anglais. Cette réalisation (la célèbre expérience de Georgetown) a été largement couverte par les médias et les autorités américaines ont cru en un avenir radieux - la traduction automatique des textes ennemis en anglais en dix ans.
Cependant, cela ne s'est pas produit. Et c'est pourquoi...
Regardons d'abord l'histoire.
L'histoire de la traduction automatique remonte au XVIIe siècle, lorsque des philosophes tels que Leibniz et Descartes ont suggéré l'existence d'un certain code reliant les mots de différentes langues. Toutes les hypothèses étaient hypothétiques et personne n'a réellement réussi à créer une machine de traduction.
Les premières demandes de brevet pour une "machine à traduire" ont été déposées au milieu des années 1930. Une demande a été déposée par l'inventeur français J. Artsruni, qui a simplement créé un dictionnaire bilingue automatique sur bande de papier. L'autre a été faite par le scientifique soviétique Pyotr Troyansky, dont l'invention était plus détaillée. Il comprenait à la fois un dictionnaire bilingue et des moyens de travailler avec des rôles grammaticaux entre deux langues basées sur l'espéranto. Ce système comportait trois étapes : la première était la suivante - l'éditeur, un locuteur natif, devait lier les mots de la langue source (LF) dans des formes logiques conformément à des fonctions syntaxiques ; dans un second temps, la machine devait « traduire » toutes ces formes dans la langue cible (TL) ; et à la troisième étape, le locuteur natif de la langue cible a édité le résultat. Son schéma est resté inconnu jusqu'à la fin des années 50, lorsque les ordinateurs sont apparus.
Le premier projet de machine de traduction informatisée a été proposé par Warren Weaver, un chercheur de la Fondation Rockefeller, dans son mémorandum de juillet 1949. Ces propositions s'appuyaient sur la théorie de l'information, qui connut un succès pendant la Seconde Guerre mondiale en lien avec la cryptographie et la diffusion de l'idée des principes universels des langues naturelles.
Quelques années plus tard, des activités de recherche liées à la traduction automatique ont commencé dans toutes les universités américaines. Le 7 janvier 1954, IBM, en collaboration avec l'Université de Georgetown (États-Unis), a réalisé avec succès la première démonstration d'un nouveau système de traduction automatique, qui a eu lieu à New York au siège d'IBM. Les résultats de la manifestation ont été couverts par la presse et ont suscité un grand intérêt public. Le système lui-même n'était rien de plus qu'un jouet selon les normes d'aujourd'hui, car il utilisait un dictionnaire de 250 mots et traduisait du russe vers l'anglais 49 phrases chimiques présélectionnées. Cependant, la démonstration a stimulé la diffusion de l'idée de l'inévitabilité de la traduction automatique, et en particulier l'attrait du financement pour les instituts de recherche non seulement aux États-Unis, mais dans le monde entier.
Les premiers systèmes utilisaient de grands dictionnaires bilingues et des règles programmées à la main pour aligner les mots de sortie dans dans le bon ordre. Finalement, cette méthode s'est avérée limitée et le développement des sciences linguistiques, par exemple la linguistique générative ou la grammaire transformationnelle, visait à améliorer la qualité de la traduction.
Les systèmes d'exploitation ont été installés à cette époque. L'US Air Force a utilisé un programme développé par IBM et l'Université de Washington, tandis que la Commission américaine de l'énergie atomique et Euratom en Italie ont utilisé un système développé par l'Université de Georgetown. Et bien que la qualité de la sortie soit faible, le système était populaire parmi les consommateurs, en raison de l'augmentation de la vitesse de traduction.
Revenons à l'expérience de Georgetown. Bien sûr, l'expérience du spectacle, en plus du scientifique, avait un côté politique. Test du soviet bombe atomique en 1949 et le lancement de Spoutnik en 1957 ont montré aux États-Unis que l'URSS n'entendait pas céder dans la course scientifique. De plus, afin de comprendre ce qui se passe généralement derrière le rideau de fer, une traduction rapide de nombreux documents ouverts et secrets en anglais ne ferait pas de mal. Le projet de traduction automatique est né à l'intersection des intérêts des scientifiques américains, civils et militaires, qui voulaient lire les publications scientifiques soviétiques, et des responsables du renseignement. Les auteurs du projet espéraient que le "russe scientifique", avec ses phrases simples et son vocabulaire clair, permettrait aux ordinateurs de maîtriser une langue russe ordinaire aussi complexe et variable.
Les Russes écrivent !
En 1948, 33 % de la littérature scientifique était publiée en russe. La langue allemande à l'âge d'or de la science "teutonique" représentait 40 %. En particulier, si en 1913 les textes russes représentaient 2,5% des publications prises en compte par le Chemical Abstracts Service, alors en 1958 - 17%, dépassant largement l'allemand (10%) et le français (5%). Déjà en 1944, l'éditeur de la publication avertissait les lecteurs de la nécessité d'apprendre le russe.
À la fin du XIXe siècle, des scientifiques et ingénieurs américains ont appris à lire l'allemand. Mais qui aurait cru qu'en seulement cinq ans de guerre, l'allemand irait à la périphérie et qu'il faudrait maîtriser les mystérieux caractères cyrilliques ! En 1953, sur 400 000 scientifiques et ingénieurs interrogés, seules 400 personnes lisaient couramment le russe.
Une des cartes perforées avec la phrase en russe
La situation a été encore compliquée par la politique de Staline. En 1947, en Union soviétique, luttant contre « l'escroquerie devant l'Occident » et les fuites d'informations, toutes les revues scientifiques en langues étrangères (Comptes rendus de l'Académie des sciences de l'URSS, Acta Physicochimica et Journal of Physics of the USSR) Nous sommes fermés. De plus, ils ont cessé de publier le contenu de la revue et des résumés d'articles en langues étrangères - et maintenant les scientifiques occidentaux qui ne connaissent pas le russe ne pouvaient même pas comprendre en quoi consistaient les nouvelles publications.
Depuis la fin des années 1940, et surtout après le lancement du satellite soviétique, le Congrès américain a alloué des dizaines de millions de dollars à l'enseignement de la langue russe. Pour simplifier la tâche, les chercheurs eux-mêmes ont mis en avant le concept de russe "scientifique" ou "technique", loin du langage incompréhensible de Pouchkine et de Dostoïevski. Un vocabulaire international, une abondance de formules, une grammaire simple devaient faciliter au maximum l'apprentissage. Mais il n'y a pas eu de progrès particulier dans la maîtrise du russe. C'est là que les Américains ont tourné leur attention vers les dernières technologies - les ordinateurs.
Les voitures à la rescousse !
Paradoxalement, la traduction automatique a été lancée par une personne qui était loin à la fois de la linguistique structurale et de la technologie informatique - le traducteur personnel du général Eisenhower, Leon Dostert. Il est né en 1904 en France. Pendant la Première Guerre mondiale, pendant les années de l'occupation allemande, Leon a rapidement appris l'allemand et a été recruté pour travailler comme traducteur. Il en fut de même lorsque les Américains occupèrent sa ville natale de Longwy : ayant apprécié les talents du jeune traducteur, les officiers payèrent ses études aux Etats-Unis. En 1939, il était déjà professeur de français à l'Université de Georgetown. Après la défaite de la France en 1940, Doster prend la nationalité américaine et traverse la guerre au quartier général d'Eisenhower, atteignant le grade de colonel.
En 1945, au Tribunal militaire international de Nuremberg, Doster a en fait inventé la traduction simultanée - car la traduction consécutive allongerait de manière inacceptable un processus déjà long. Il a eu l'idée de fermer les interprètes dans «l'aquarium» et de diffuser des discours à chacun des participants au processus individuellement, via des écouteurs. Tout l'équipement a été donné par l'ami de Doster, Thomas Watson, le futur président d'IBM. Après avoir organisé un système similaire à l'ONU, Doster est retourné à l'université en tant que président du nouvel Institut des langues et de la linguistique.
Pas étonnant que ce polyglotte, dont le destin a été radicalement changé par deux guerres mondiales, ait voulu en empêcher une troisième. S'exprimant en 1951 dans les pages d'ARMOR, le magazine des forces blindées américaines, Doster était sceptique quant à l'efficacité au combat du bloc de l'OTAN - précisément à cause de l'incapacité des soldats multilingues des pays participants à se comprendre.
Léon Doster
Le salut est venu d'un côté inattendu. Pendant les années de guerre, les ordinateurs à cartes perforées IBM étaient utilisés non seulement pour calculer les trajectoires des obus et résoudre des problèmes logistiques, mais aussi en cryptographie. Cela a conduit Warren Weaver, un employé de la Fondation Rockefeller, à l'idée de la traduction automatique. En 1947, il écrit une lettre au père de la cybernétique, Norbert Wiener : « Le problème de la traduction peut être résolu comme un problème de cryptographie. Quand je vois un article en russe, je me dis : "C'est en fait écrit en anglais, mais c'est crypté avec des caractères étranges que je décode." Wiener, qui parle plusieurs langues, a brisé le projet, soulignant le problème encore non résolu - les mots des langues naturelles, contrairement aux nombres, ont trop de significations vagues et ambiguës pour être traduits mécaniquement.
Mais Weaver a reçu suffisamment de fonds de la Fondation pour continuer à promouvoir ses idées. En 1952, il a parrainé la première conférence sur la traduction automatique, où les principaux problèmes techniques et philosophiques de ce projet ont été exprimés. Doster a également participé au symposium - et s'est vite rendu compte que pour le succès de la traduction automatique, il ne faut pas discuter de problèmes fondamentaux, mais concevoir un appareil qui prouvera à tous la faisabilité de cette entreprise.
La machine de Doster était basée sur six opérations de base ("règles") et, par conséquent, ne pouvait traduire que des phrases là où elles s'appliquaient. Chacun des 250 mots du lexique était codé avec deux nombres qui définissaient un arbre de décision binaire. L'ordinateur a choisi entre l'ordre des mots direct et indirect, ainsi que l'une des deux significations du dictionnaire. Malgré les fonds limités, les résultats ont été impressionnants : des phrases russes en latin ont été martelées dans la machine (sur des cartes perforées), et après une dizaine de minutes, le résultat a été donné :
KRAXMAL VIRABATIVAYETSYA MYEKHANYICHYESKYIM PUTYEM YIZ KARTOFYELYA
L'amidon est produit par des méthodes mécaniques à partir de pommes de terre
VYELYICHYINA UGLYA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU
L'amplitude de l'angle est déterminée par la relation entre la longueur de l'arc et le rayon
MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI
Nous transmettons des pensées au moyen de la parole
Pourquoi l'argent de la CIA est-il dangereux ?
Le succès sensationnel de la démonstration de 1954 a attiré l'attention de la marine, de la CIA et d'autres agences similaires sur les conceptions de Doster. Mais les forces de sécurité n'étaient pas pressées de débourser. Ici, une aide inattendue a été fournie par l'URSS. Alexei Lyapunov, le père de la cybernétique soviétique, a attiré l'attention sur l'article sur l'expérience de Georgetown et a rapidement créé un groupe de recherche à l'Institut mathématique. Il a été suivi par Dmitry Panov de l'Institut de mathématiques précises et de génie informatique, et en 1958, 79 institutions différentes étaient déjà engagées dans la traduction automatique.
Doster et ses collègues, soulignant la nécessité de "rattraper l'URSS", ont finalement reçu un financement généreux - cent mille dollars par an. Cela a également aidé le vieil ami de première ligne de Doster, Allen Dulles, à devenir chef de la CIA en 1956. Le département manquait d'analystes russophones pour traiter les informations sur l'URSS, et Doster assura à Dulles que ses machines viendraient bientôt à la rescousse. Au cours de la période 1956-1958, le groupe de Georgetown a reçu environ un million trois cent mille dollars de la CIA (10 millions au taux de 2016). Pas une seule équipe scientifique de l'époque, à l'exception des physiciens nucléaires, ne pouvait même rêver de telles quantités. Près de huit mille termes ont été traduits en codes sur des cartes perforées chimie organique. Doster a également signé un contrat pour traduire des documents soviétiques sur l'énergie nucléaire.
Doster et Watson (à droite) lors de l'expérience de Georgetown
Cependant, au milieu des années 1960, des nuages se sont accumulés sur le projet. Le philosophe Yehoshua Bar-Hillel, le premier spécialiste de la traduction automatique du pays, est arrivé à la conclusion que c'est impossible même à l'avenir. L'ordinateur, selon l'exemple bien connu de Bar-Hillel, ne comprend pas la différence entre les phrases La boîte dans le stylo (boîte dans l'arène) et Le stylo est dans la boîte (stylo dans la boîte) - seulement un personne comprend intuitivement quand stylo signifie "parc" et quand - "poignée".
En 1963, Doster a réussi à repousser les attaques des membres du Congrès qui ont tenu des audiences spéciales sur la question de la traduction automatique. Mais en 1964, le Comité de linguistique appliquée de l'Académie nationale des sciences des États-Unis a déclaré "l'absence de progrès" - il n'y avait aucune traduction automatique d'articles réels et inadaptés du russe vers l'anglais. La CIA a également arrêté le financement (sans explication).
Machines à la retraite.
En fait, c'est le succès retentissant de l'expérience de Georgetown qui a creusé la tombe du projet. Les premières phrases étaient trop belles, et les traductions de textes plus complexes se sont révélées imprécises, maladroites, voire incompréhensibles sans retouche supplémentaire.
Selon Gordin, l'erreur fatale de Doster a été le manque d'attention aux consommateurs de traductions automatiques. Il s'est concentré exclusivement sur les agences gouvernementales, qui pouvaient arrêter le financement à tout moment (ce qu'elles ont fait).
Cependant, le problème des «secrets de la science soviétique» a néanmoins été résolu aux États-Unis, et de manière plutôt économique. Des éditeurs privés ont créé une série de revues (par exemple, la Revue de chimie générale de l'URSS), où des articles de revues soviétiques ont été traduits en une seule fois. Au début, ces publications ont trouvé un public reconnaissant parmi les Américains qui ne voulaient pas apprendre le russe, mais après quelques années, la part du lion du tirage est allée à des spécialistes étrangers. Les chercheurs de France, du Japon, d'Inde ou du Brésil, qui voulaient savoir ce qui était recherché et inventé en URSS, n'ont pas appris le russe, mais ont acheté des revues abstraites américaines. Donc progrès révolutionnaire La science et la technologie soviétiques ont contribué à faire de l'anglais la langue internationale monopolistique des scientifiques.
La publication du rapport a eu un plus grand impact sur la recherche en traduction automatique aux États-Unis, et beaucoup moins en URSS et au Royaume-Uni. Au moins aux États-Unis, ce type de recherche a été arrêté pendant une décennie entière. Au Canada, en France et en Allemagne, cependant, les recherches se sont poursuivies. Aux États-Unis, les principales exceptions sont les fondateurs de Systran (Peter Thoma)
Si dans les années 60, l'accent était mis sur certaines paires de langues et certaines entrées, dans les années 70, des coûts réduits pour des systèmes capables de traduire une gamme de textes techniques et commerciaux sont devenus une exigence. La demande a été alimentée par la croissance de la mondialisation et la demande de traduction au Canada, en Europe et au Japon.
années 80 début des années 90
Dans les années 1980, la variété et le nombre de programmes de traduction automatique avaient augmenté. Des systèmes de traduction basés sur la technologie mainframe tels que Metal ont été utilisés.
En raison de la disponibilité croissante des micro-ordinateurs, un marché pour les programmes de traduction automatique à faible coût a émergé. De nombreuses entreprises en Europe, au Japon et aux États-Unis ont profité de cette opportunité. Les systèmes ont été introduits sur les marchés de la Chine, de l'Europe de l'Est, de la Corée et de l'URSS.
Dans les années 1980, il y avait un grand buzz au Japon autour de la traduction automatique. Avec l'avènement des ordinateurs de cinquième génération, le Japon prévoyait de sauter avant tout dans le domaine de la technologie et de la programmation, le projet lié à la création de programmes de traduction de/vers l'anglais intéressait de nombreuses entreprises (Fujitsu, Toshiba, NTT, Brother, Catena , Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).
La recherche dans les années 80 était basée sur la traduction d'unités linguistiques à l'aide d'analyses morphologiques, syntaxiques et sémantiques.
Les premiers produits commerciaux de traduction automatique qui ont trouvé une utilisation pratique en Russie sont apparus au milieu des années 80. Ils ont été implémentés sur des ordinateurs personnels et étaient des systèmes de traduction directe, dont les capacités reposaient sur d'énormes dictionnaires (par rapport aux premiers systèmes), et non sur la capacité d'analyser et de synthétiser des textes.
Des produits de traduction automatique commerciaux modernes sont proposés par des entreprises nationales :
- « Vista Technologies » et « Adventis », constituées en 1991 par une équipe de développeurs issus de VINITI ;
- PROMT, créée en 1991 ;
- "Lingua des médias".
Par exemple, les dictionnaires Retrans Vista stockent des millions de concepts, qui incluent non seulement des phrases fixes traditionnelles, mais surtout des phrases utilisées dans le discours de tous les jours. De plus, il existe un programme d'analyse conceptuelle qui extrait automatiquement les nouvelles phrases du texte et les inclut dans le dictionnaire. Les principaux dictionnaires du système Retrans Vista contiennent des termes et des unités phraséologiques pour les sciences naturelles et techniques, l'économie, les affaires et la politique. Le volume du dictionnaire machine polythématique est d'environ 3,4 millions de mots (1,8 million dans la partie russe-anglais, 1,6 million dans la partie anglais-russe), et 20% d'entre eux sont des mots et 80% sont des phrases stables avec une moyenne " longueur" de 2,2 mots.
La fin des années 1980 a vu une augmentation du nombre de méthodes utilisées dans la traduction automatique. Le système développé par IBM était basé sur une méthode statistique. D'autres groupes ont utilisé des méthodes basées sur un grand nombre d'échantillons de traduction, une technique appelée traduction automatique basée sur des échantillons. La caractéristique déterminante des deux approches était l'absence de règles sémantiques et syntaxiques et le recours à la manipulation de corpus textuels.
Dans les années 90, après le succès des programmes de reconnaissance et de synthèse vocales et avec le développement de Verbmobil, des développements ont commencé sur la traduction vocale.
En raison de l'avènement d'ordinateurs économiques et plus puissants, la demande de programmes de traduction automatique a augmenté. C'est au début des années 90 que la traduction a commencé à être effectuée non par des ordinateurs encombrants, mais par Ordinateur personnel et terminaux d'affichage. L'une des entreprises qui était à la tête du marché des PC à cette époque était Systran.
Recherche récente
Au cours des dernières années, la traduction automatique a subi des changements importants. À l'heure actuelle, de nombreuses recherches sont en cours dans le domaine de la traduction automatique statistique et de la traduction automatique basée sur des exemples de traduction. Aujourd'hui, peu d'entreprises utilisent la traduction automatique statistique à des fins commerciales, comme Microsoft (utilisant son propre programme statistique breveté de traduction automatique pour traduire les articles de base). Il y a eu un regain d'intérêt pour l'hybridation, les chercheurs combinant des connaissances syntaxiques et morphologiques (c'est-à-dire linguistiques) dans des systèmes statistiques avec des règles préexistantes.
sources
Cours n° 8 Sujet : Le but des systèmes de traduction automatique.
Objectif de la traduction automatique
La traduction automatique (TA), ou traduction automatique (TA), est un domaine de recherche scientifique, de développement expérimental et de systèmes déjà fonctionnels (MTS) en plein développement, dans lequel un ordinateur est impliqué dans le processus de traduction à partir d'une langue naturelle ( NL) à un autre. Les SMT ouvrent un accès rapide et systématique à l'information dans une langue étrangère, assurent l'efficacité et l'uniformité dans la traduction de grands flux de textes, principalement scientifiques et techniques. Les SMP fonctionnant à l'échelle industrielle s'appuient sur de grandes bases de données terminologiques et nécessitent généralement l'intervention d'un humain en tant que pré-, inter- ou post-éditeur. Les SMP modernes, en particulier ceux qui sont basés sur des bases de connaissances dans un domaine spécifique, sont classés comme des systèmes d'intelligence artificielle (IA).
Les principaux domaines d'utilisation du MC
1. Dans les services d'information de branche en présence d'un large éventail ou d'un flux constant de sources en langues étrangères. Si des SMP sont utilisés pour produire des informations de signalisation, la post-édition n'est pas nécessaire.
2. Dans les grandes organisations internationales traitant d'un ensemble de documents polythématiques multilingues. Telles sont les conditions de travail à la Commission des Communautés européennes à Bruxelles, où toute la documentation doit paraître simultanément dans neuf langues de travail. Étant donné que les exigences de traduction sont élevées ici, le MT a besoin d'une post-édition.
3. Dans les services qui traduisent la documentation technique accompagnant les produits exportés. Les traducteurs ne peuvent pas faire face à une documentation exhaustive dans les délais requis (par exemple, les spécifications pour les aéronefs et autres objets complexes peuvent prendre jusqu'à 10 000 pages ou plus). La structure et la langue de la documentation technique est assez standard, ce qui facilite la traduction automatique et la rend même préférable à la traduction manuelle, car elle garantit un style uniforme.
l'ensemble du tableau. Étant donné que la traduction des spécifications doit être complète et précise, les produits MT doivent être post-édités.
4. Pour la traduction simultanée ou quasi simultanée d'un flux constant de messages du même type. Tel est le flux des bulletins météorologiques au Canada, qui devraient apparaître simultanément en anglais et en français.
Outre le besoin pratique du monde des affaires en SMP, il existe également des incitations purement scientifiques pour le développement de la TA : les systèmes MT expérimentaux stables sont un champ expérimental pour tester divers aspects de la théorie générale de la compréhension, de la communication vocale, de la transformation de l'information, ainsi que pour créer de nouveaux modèles plus efficaces de MT elle-même. .
Du point de vue de l'échelle et du degré de développement, NSR peut être divisé en trois classes principales : industrielle, en développement et expérimentale.
Support linguistique des systèmes de traduction automatique
Le processus MT est une séquence de transformations appliquées au texte d'entrée et le transformant en un texte dans la langue de sortie, qui doit recréer au maximum le sens et, en règle générale, la structure du texte source, mais au moyen de la langue de sortie . Le support linguistique du SMP comprend tout l'ensemble des connaissances linguistiques propres, métalinguistiques et dites « extralinguistiques » qui sont utilisées dans une telle transformation.
Dans les SMP classiques, qui effectuent une traduction indirecte de phrases individuelles (traduction phrase par phrase), chaque phrase passe par une séquence de transformations composée de trois parties (étapes) : analyse -> transfert (opérations interlinguales) -> synthèse. À son tour, chacune de ces étapes est un système assez complexe de transformations intermédiaires.
L'objectif de l'étape d'analyse est de construire une description structurelle (représentation intermédiaire, représentation interne) de la phrase d'entrée, | La tâche de l'étape de transfert (traduction proprement dite) est de transformer la structure de la phrase d'entrée en la structure interne de la phrase de sortie. Cette étape comprend également le remplacement des lexèmes des langues d'entrée par leurs équivalents de traduction (transformations lexicales interlangues). L'objectif de l'étape de synthèse est de construire une phrase correcte dans la langue de sortie sur la base de la structure obtenue à la suite de l'analyse.
Le support linguistique du NSR moderne standard comprend :
1) dictionnaires ;
2) grammaire ;
3) des représentations intermédiaires formalisées d'unités d'analyse à différents stades de transformations.
En plus des composants standard, certains composants non standard peuvent également être présents dans des SMP individuels. Ainsi, les connaissances expertes sur les logiciels peuvent être spécifiées à l'aide de réseaux conceptuels spéciaux, et non sous la forme de dictionnaires et de grammaires.
Les mécanismes (algorithmes, procédures) permettant de fonctionner avec les dictionnaires, les grammaires et les représentations structurelles existants sont appelés le support mathématique et algorithmique du SMP.
Un des exigences nécessairesà la modularité SMP moderne. D'un point de vue linguistiquement significatif, cela signifie que l'analyse et les processus qui la suivent sont construits en tenant compte de la théorie des niveaux linguistiques. Dans la pratique de la création d'un SMP, les niveaux d'analyse suivants sont distingués :
Analyse pré-syntaxique (elle comprend l'analyse morphologique - MorphAn, l'analyse de phrases, d'éléments textuels non identifiés, etc.) ;
Analyse syntaxique SinAn (construit une représentation syntaxique d'une phrase, ou SinP) ; dans ses limites, on peut distinguer un certain nombre de sous-niveaux qui fournissent une analyse différents types unités syntaxiques;
Analyse sémantique SemAn, ou analyse logique-sémantique (construit une structure argument-prédicat d'énoncés ou un autre type d'analyse sémantique
présentation des phrases et du texte) ;
Analyse conceptuelle (analyse en termes de structures conceptuelles qui reflètent la sémantique du logiciel). Ce niveau d'analyse est utilisé dans les SMP qui ciblent des logiciels très limités. En fait, la structure conceptuelle est une projection de schémas logiciels sur des structures linguistiques, souvent même pas sémantiques, mais syntaxiques. Ce n'est que pour des logiciels très étroits et des classes limitées de textes que la structure conceptuelle coïncide avec la structure sémantique ; dans le cas général, il ne devrait pas y avoir de correspondance complète, car le texte est plus détaillé que n'importe quel
schémas conceptuels.
La synthèse passe théoriquement par les mêmes niveaux que l'analyse, mais en sens inverse. Dans les systèmes de travail, seul le chemin du SynP à la chaîne de mots de la phrase de sortie est généralement implémenté.
La distinction linguistique entre différents niveaux peut également se manifester dans la distinction entre les moyens formels utilisés dans les descriptions correspondantes (l'ensemble de ces moyens est précisé pour chaque niveau séparément). En pratique, les moyens linguistiques de MorphAn sont souvent spécifiés séparément et les moyens de SinAn et SemAn sont combinés. Mais la différenciation des niveaux ne peut garder de sens que s'ils utilisent un formalisme unique dans leurs descriptions, propre à présenter l'information sur tous les niveaux distingués.
D'un point de vue technique, la modularité du support linguistique signifie séparer la représentation structurelle des phrases et des textes (en tant que connaissances actuelles et temporaires sur le texte) des connaissances "permanentes" sur la langue, ainsi que les connaissances linguistiques des connaissances logicielles ; séparation des dictionnaires des grammaires, des grammaires des algorithmes pour leur traitement, des algorithmes des programmes. Les ratios spécifiques des différents modules du système (dictionnaires-grammaires, grammaires-algorithmes, algorithmes-programmes, déclaratifs-connaissances procédurales, etc.), y compris la répartition des données linguistiques par niveaux, est l'élément principal qui détermine les spécificités de le SMP.
Dictionnaires. Les dictionnaires d'analyse sont généralement monolingues. Ils doivent contenir toutes les informations nécessaires pour inclure une unité lexicale (LE) donnée dans la représentation structurelle. Ils séparent souvent les dictionnaires de bases (avec des informations morphologiques et syntaxiques : partie du discours, type d'inflexion, sous-classe caractérisant le comportement syntaxique de LU, etc.) et les dictionnaires de sens des mots contenant des informations sémantiques et conceptuelles : classe sémantique LU, espérances sémantiques ( valences), conditionne leur implémentation dans une phrase, etc.
Dans de nombreux systèmes, les dictionnaires de vocabulaire courant et terminologique sont séparés. Une telle division permet, lors du passage à des textes d'un autre domaine, de n'être limité qu'en changeant de dictionnaires terminologiques. Les dictionnaires d'unités complexes (révolutions, structures) forment généralement un tableau séparé, les informations du dictionnaire qu'ils contiennent indiquent la manière dont une telle unité est «collectée» lors de l'analyse. Une partie des informations du dictionnaire peut être spécifiée sous forme procédurale, par exemple, des mots polysémantiques peuvent être associés à des algorithmes pour résoudre le type d'ambiguïté correspondant. De nouveaux types d'organisation des informations de vocabulaire pour les besoins de la traduction automatique sont offerts par ce que l'on appelle les "bases de connaissances lexicales". La présence d'informations hétérogènes sur le mot (appelé l'univers lexical du mot) rapproche un tel dictionnaire d'une encyclopédie plus que des dictionnaires linguistiques traditionnels.
Grammaires et algorithmes. La grammaire et le vocabulaire définissent le modèle linguistique, formant l'essentiel des données linguistiques. Les algorithmes pour leur traitement, c'est-à-dire les corrélations avec les unités de texte, sont appelés le support mathématique et algorithmique du système.
La séparation des grammaires et des algorithmes est importante d'un point de vue pratique car elle vous permet de modifier les règles de grammaire sans modifier les algorithmes (et, par conséquent, les programmes) qui fonctionnent avec les grammaires. Mais une telle séparation n'est pas toujours possible. Ainsi, pour un système avec une spécification procédurale de la grammaire, et plus encore avec une représentation procédurale des informations du dictionnaire, une telle division n'est pas pertinente. Les algorithmes d'aide à la décision en cas d'informations insuffisantes (incomplétude des données d'entrée) ou redondantes (variance d'analyse) sont plus empiriques, leur formulation nécessite une intuition linguistique. La définition d'un algorithme de contrôle commun qui contrôle l'ordre d'appel des différentes grammaires (s'il y en a plusieurs dans un système) nécessite également une justification linguistique. Néanmoins, la tendance actuelle est de séparer les grammaires des algorithmes afin que toutes les informations linguistiquement significatives soient données sous la forme statique des grammaires, et de rendre les algorithmes si abstraits qu'ils peuvent invoquer et traiter différents modèles linguistiques.
La séparation des grammaires et des algorithmes est plus clairement observée dans les systèmes travaillant avec des grammaires sans contexte (CSG), où le modèle de langage est une grammaire avec un nombre fini d'états, et l'algorithme doit fournir pour une phrase arbitraire un arbre de dérivation selon les règles de grammaire, et s'il y a plusieurs dérivations de ce type, énumérez-les. Un tel algorithme, qui est un système formel (au sens mathématique), s'appelle un analyseur. La description de la grammaire sert à l'analyseur, ayant l'universalité, la même entrée que la phrase analysée. Les analyseurs sont construits pour des classes de grammaires, bien que la prise en compte des caractéristiques spécifiques de la grammaire puisse augmenter l'efficacité de l'analyseur.
Les grammaires du niveau syntaxique sont la partie la plus développée tant du point de vue de la linguistique que du point de vue de leur dotation en formalismes.
Principaux types de grammaires et algorithmes qui les implémentent :
Une grammaire en chaîne fixe l'ordre des éléments, c'est-à-dire des structures de phrases linéaires, en les spécifiant en termes de classes grammaticales de mots (article + nom + préposition) ou en termes d'éléments fonctionnels (sujet + prédicat) ;
La grammaire des constituants (ou la grammaire des constituants directs - NSG) capture des informations linguistiques sur le regroupement d'éléments grammaticaux, par exemple, une phrase nominale (se compose d'un nom, d'un article,
adjectif et autres modificateurs), groupe prépositionnel (composé d'une préposition et d'un syntagme nominal), etc. jusqu'au niveau d'une phrase. La grammaire est construite comme un ensemble de règles de substitution, ou un calcul de productions de la forme A->B...C. NS G
sont des grammaires de type génératif et peuvent être utilisées aussi bien en analyse qu'en synthèse : les phrases du langage sont générées par l'application répétée de telles règles ;
La grammaire des dépendances (GZ) définit la hiérarchie des relations entre les éléments d'une phrase (le mot principal détermine la forme des dépendants). L'analyseur dans la GZ est basé sur l'identification des maîtres et de leurs dépendants (serviteurs). L'essentiel dans la phrase est le verbe à la forme personnelle, car il détermine le nombre et la nature des noms dépendants. La stratégie d'analyse dans GC est descendante : les maîtres sont identifiés en premier, puis les serviteurs, ou ascendante : les maîtres sont identifiés par un processus de substitution ;
La grammaire catégorique de Bar-Hillel est une version de la grammaire des constituants, elle n'a que deux catégories - les phrases S et le nom n. Le reste est défini en termes de capacité à être combiné avec ces principaux dans la structure du NN. Ainsi, le verbe transitif est défini comme n\S, puisqu'il est combiné avec le nom et à sa gauche, formant une phrase S.
Il existe de nombreuses manières de prendre en compte les conditions contextuelles : les grammaires de la métamorphose et leurs variantes. Toutes sont des extensions des règles CF. De manière générale, cela signifie que les règles de production sont réécrites comme suit : A [a]-> B[b], ..., C [c], où conditions, tests, instructions, etc., élargissant les règles rigides d'origine et donner de la souplesse et de l'efficacité à la grammaire.
Dans la grammaire des composants généralisés-TCS, des méta-règles sont introduites, qui sont une généralisation des régularités des règles de CS1.
Les grammaires des réseaux de transition étendus-CPN fournissent des tests et des conditions pour les arcs, ainsi que des instructions qui doivent être exécutées si l'analyse suit cet arc. Dans différentes modifications de CPN, des poids peuvent être attribués aux arcs, puis l'analyseur peut choisir le chemin avec le poids le plus élevé. Les conditions peuvent être divisées en deux parties : indépendantes du contexte et sensibles au contexte.
Une variété de RSPG sont des RSPG en cascade. Une cascade est un RSP équipé de l'action 1shshsh1. Cette action provoque l'arrêt du processus de cette cascade, le stockage des informations sur la configuration actuelle sur la pile, le saut vers une cascade plus profonde, puis le retour à son état d'origine. CPN a un certain nombre de caractéristiques des grammaires transformationnelles. Il peut également être utilisé comme système de génération.
La méthode d'analyse utilisant un schéma graphique vous permet d'enregistrer des résultats partiels et de présenter des options d'analyse.
Une méthode nouvelle et immédiatement populaire de description grammaticale est la grammaire lexsho-fonctionnelle (LFG). Il élimine le besoin de règles de transformation. Bien que le LFG soit basé sur le QSG, les conditions de test qu'il contient sont séparées des règles de substitution et sont "résolues" comme des équations autonomes.
Les grammaires d'unification (UG) représentent la prochaine étape de généralisation du modèle d'analyse après les schémas de graphes : elles sont capables d'incarner des grammaires de différents types. Le CG contient quatre composants : un package d'unification, un interpréteur de règles et de descriptions lexicales, des programmes de traitement de graphes orientés et un analyseur utilisant un schéma de graphes. Les CG combinent des règles grammaticales avec des descriptions de dictionnaires, des valences syntaxiques avec des valences sémantiques.
Le problème central de tout système d'analyse NL est le problème du choix des options. Pour le résoudre, les grammaires du niveau syntaxique sont complétées par des grammaires auxiliaires et des méthodes d'analyse de situations complexes. Les grammaires NN utilisent des méthodes de filtrage et heuristiques. La méthode de filtrage est que d'abord toutes les variantes de l'analyse de la phrase sont reçues, puis celles qui ne satisfont pas à un certain système de conditions de filtre sont rejetées. Dès le début, la méthode heuristique ne construit qu'une partie des options les plus plausibles au regard des critères donnés. L'utilisation de pondérations pour sélectionner des options est un exemple de l'utilisation de méthodes heuristiques dans l'analyse.
Le niveau sémantique est beaucoup moins pourvu de développements théoriques et pratiques. La tâche traditionnelle de la sémantique est la levée de l'ambiguïté de l'analyse syntaxique - structurelle et lexicale. Pour cela, on utilise l'appareil des restrictions sélectives, qui est lié au cadre des phrases, c'est-à-dire qui s'inscrit dans le modèle syntaxique. Le type le plus courant de SemAn est basé sur les soi-disant grammaires de cas. La grammaire est basée sur le concept de cas profond ou sémantique. Le cadre casuel d'un verbe est une extension du concept de valence : c'est un ensemble de relations sémantiques qui peuvent (obligatoirement ou facultativement) accompagner le verbe et ses variations dans le texte. Au sein d'une même langue, le même cas profond est matérialisé par différentes prépositions de surface - formulaires de cas. Les cas profonds, en principe, vous permettent d'aller au-delà de la phrase, et entrer dans le texte signifie une transition vers le niveau sémantique de l'analyse.
Comme l'information sémantique, contrairement à l'information syntaxique, basée principalement sur les grammaires, est concentrée principalement dans les dictionnaires, dans les années 1980, des grammaires se sont développées intensivement qui permettent de « lexicaliser » les CSG. Le développement de grammaires basées sur l'étude des propriétés du discours est en cours.