Mga posibilidad ng paggamit ng machine translation sa trabaho ng isang translator sa propesyonal na larangan. Pagsasalin sa Makina: Pagtagumpayan ang mga Hadlang sa Wika
Uri ng trabaho:
Ulat ng pagsasanay sa paksa: Pagsasalin ng makina. Sistema ng pagsasalin ng makina ng PROMT
21.03.2012 10:20:09
Uri ng file:
Pagsusuri ng virus:
Sinuri - Kaspersky Anti-Virus
Buong teksto:
Panimula…………………………………………………………………………..2
Kabanata I. Pagsasalin sa Makina
Kasaysayan ng pagsasalin ng makina………………………………………….…4
Paano isinasagawa ang pagsasalin ng makina………………………………..10
Ang mga sistema ng pagsasalin ng makina at ang kanilang pag-uuri......................................13
Kalidad ng pagsasalin ng makina…………………………………………..18
Kabanata II. Sistema ng pagsasalin ng makina PROMT
2.1 Mga tampok ng machine translator ng PROMT family……………………22
2.2 Pahambing na pagsusuri ng mga pagsasalin ng isang tekstong pampanitikan na ginawa ng isang machine translation system at isang tao……………………………………………26
Konklusyon………………………………………………………………….30
Bibliograpiya…………………………………………………………………..31
Panimula
Pagsasalin (isang uri ng linguistic mediation, kung saan ang nilalaman ng isang dayuhang teksto ng orihinal ay inililipat sa ibang wika sa pamamagitan ng paglikha ng isang komunikasyong katumbas ng teksto sa wikang ito. (No. 7)) ay may mahabang kasaysayan, ito ay nagsimula noong mga oras kung kailan nagsimulang maghiwa-hiwalay ang wika ng magulang sa magkakahiwalay na mga wika at may pangangailangan para sa mga taong may kakayahang maging tagapamagitan sa komunikasyon ng mga kinatawan ng iba't ibang pamayanang linggwistika.
Ang communicative equivalence ay nauunawaan bilang ang kakayahan ng isinalin na teksto na kumilos bilang isang ganap na kapalit para sa orihinal na teksto (No. 7).
Ang communicative equivalence ng bagong teksto na may kaugnayan sa orihinal ay ibinibigay ng mga sumusunod:
paglipat ng mga nilalaman ng orihinal nang buo;
· pagsunod sa isinalin na teksto sa orihinal na teksto ayon sa mga pamantayan ng target na wika;
· ang teksto ng pagsasalin ay dapat na tumutugma sa orihinal sa mga tuntunin ng pagiging madaling maintindihan at pagbuo ng mga pahayag upang makamit ang isang katulad na estilistikong epekto. Gayundin, ang pagsasalin ay dapat na humigit-kumulang maihahambing sa dami.
Kaugnayan Ang problemang ito ay dahil sa ang katunayan na ang kasaysayan ng pag-unlad at pagpapakilala ng mga personal na computer (may kakayahang awtomatikong pagsasalin) sa pang-araw-araw na buhay ay hindi hihigit sa labinlimang hanggang dalawampung taon. Ngayon, ang mga programa ng tagapagsalin ay nakakagawa ng mga makabuluhang parirala at simpleng pangungusap; sa nakalipas na ilang taon, bumuti ang kalidad ng pagsasalin.
Layunin ng pag-aaral ay isang machine translation system.
Paksa ng pag-aaral ay isang pagsasalin na isinasagawa ng PROMT XT system.
Gayunpaman, ang mga programang ito sa kompyuter ay hindi pa sanay sa gramatika, mga pananalitang balbal, mga kagamitang pangkakanyahan at marami pang ibang tila walang kabuluhan, ngunit mula sa kanila na nabuo ang isang maganda, naiintindihan na pagsasalin. Sa modernong mundo, ang mga computer ay sumasakop sa isang makabuluhang lugar sa mga tagasalin, linguist at mga espesyalista na kailangang mabilis na magsalin ng impormasyon sa wikang banyaga.
Ang pag-unlad ng cybernetics ay ginawang posible ang pagsasalin ng makina, i.e. ang aksyon na ginawa sa isang computer upang i-convert ang teksto sa isang natural na wika sa katumbas ng teksto sa nilalaman sa ibang wika, gayundin ang resulta ng naturang aksyon. Sa kasalukuyan, ang mga pangunahing lugar ng aplikasyon ng pagsasalin ng makina ay ang pagsasalin ng mga pahina sa Internet, mga teknikal na manwal, at mga e-mail. Sa kasong ito, isang pangkalahatang pag-unawa lamang sa teksto ang nakakamit. Ang isa pang aplikasyon ng mga sistemang ito ay upang mapadali ang gawain ng mga propesyonal na tagapagsalin, na binabawasan ang oras na ginugol sa interlinear na pagsasalin, na maaaring i-edit pagkatapos.
Target ng gawaing ito ay upang matukoy kung gaano karaming mga modernong programa ang magagamit para sa pagsasalin, gayundin kung ano ang pagiging epektibo ng mga ito.
Alinsunod sa nakasaad na layunin, mga gawain pag-aaral ay:
· Paglilinaw ng pagkakasunud-sunod ng mga pormal na operasyon, pagbibigay ng pagsusuri at synthesis sa sistema ng pagsasalin ng makina (pagsasalin);
· Pagsusuri ng gawain ng mga sistema ng pagsasalin ng makina sa halimbawa ng pagsasalin na ginawa ng programang PROMT XT;
· Paghahambing ng mga sample na pagsasalin sa mga pagsasalin ng tao. Pagsusuri ng mga sanhi ng hindi pagsunod.
Ilalahad din ng papel ang kasaysayan ng pag-unlad ng machine translation, sa ating bansa at sa ibang bansa. Ang algorithm para sa pagpapatupad ng pagsasalin ng makina, ang pag-uuri ng mga sistema ng pagsasalin ng makina, ang problema sa kalidad ng pagsasalin ay isinasaalang-alang.
Kabanata I. Pagsasalin sa makina.
1.1 Kasaysayan ng pagsasalin ng makina
Unang iminungkahi nina Leibniz at Descartes ang ideya ng paggamit ng mga mekanismo upang magsalin mula sa isang wika patungo sa isa pa. Sinubukan nilang lumikha ng diksyunaryo batay sa mga numerical code. Mula noong sinaunang panahon, may mga ideya tungkol sa isang wika na naiintindihan ng lahat, na binuo ng eksklusibo sa lohika, gamit ang mga simbolo - pictograms. Ang pinakatanyag na pag-unlad sa lugar na ito ay ang "interlingua" ni John Wilkins. Nang maglaon, maraming mga artipisyal na wika ang nilikha, ang pinakasikat sa mga ito ay ang Esperanto ni Lev Znamenhof. Ayon sa mga biographer, ang sikat na matematiko na si Charles Babbage, na sinusubukang kumbinsihin ang gobyerno ng Britanya na tustusan ang kanyang pag-unlad ng "analytical engine", nangako na sa malapit na hinaharap ang kanyang makina, bukod sa iba pang mga bagay, ay makakapagsalin ng kolokyal na pananalita. Ngunit ang kotse ay hindi ginawa.
Noong 1933, dalawang patent ang inisyu para sa isang mekanikal na sistema ng pagsasalin - sa Russia at sa France. Ang Pranses na Armenian na si Georges Arsuni ay nag-imbento ng isang scheme ng aparato sa isang papel na tape para sa pagsasalin ng isang arbitrary na salita sa ibang wika at noong 1937. nagpakita ng isang prototype system. Sa Russia, ang patent ay napunta kay Peter Smirnov - Troyansky, na nag-imbento ng isang uri ng linguistic adding machine. Binili niya ang tatlong yugto ng mekanikal na pagsasalin: sa unang yugto, ang isang taong nakakaalam ng input language ay nagpakita ng mga salita at pangungusap sa "basic" na anyo at inayos ang syntactic function ng mga salita. Sa ikalawang yugto, isinalin ng makina ang mga form at function na ito sa target na wika, at pagkatapos, sa ikatlong yugto, ang resultang teksto ay na-edit ng isang katutubong nagsasalita ng target na wika. Naniniwala si Smirnov-Troyansky na hindi bababa sa ikalawang yugto ay maaaring awtomatiko. (No. 15)
Ang kasaysayan ng pagsasalin ng makina bilang isang siyentipiko at inilapat na direksyon ay nagsimula noong huling bahagi ng 40s ng huling siglo. Noong Marso 1947, si Warren Weaver, direktor ng Natural Sciences Division ng Rockefeller Foundation, sa pakikipagsulatan kina Edru Booth at Norbert Wiener, ay unang bumalangkas ng konsepto ng machine translation, na kalaunan ay binuo niya (noong 1949) sa kanyang memorandum na naka-address sa Foundation. . Sumulat si W. Weaver: "Mayroon akong isang text sa harap ko na nakasulat sa Russian ngunit magpapanggap ako na ito ay talagang nakasulat sa Ingles at na ito ay na-code sa ilang kakaibang mga simbolo. Ang kailangan ko lang gawin ay hubarin off the code in order to obtain the information contained in the text." characters. Ang kailangan ko lang ay basagin ang code para makuha ang impormasyong nakapaloob sa text.") Natural ang pagkakatulad sa pagitan ng pagsasalin at decryption sa konteksto ng post. -panahon ng digmaan, dahil sa mga pagsulong na ginawa ng cryptography noong Ikalawang Digmaang Pandaigdig.
pag-aaral ng puro panlabas na katangian ng mensahe, tulad ng dalas ng mga indibidwal na elemento at kumbinasyon ng mga elemento;
pag-aaral ng distribusyon ng mga elementong bumubuo sa teksto;
· pagsusuri ng mga bilingual upang matukoy ang magkakatulad na mga elemento at ang paggamit ng ilang mahahalagang elemento (mga wastong pangalan, atbp.), na isinasaalang-alang ang mga katangian ng istatistika at pamamahagi;
paghahanap ng susi at paglalapat nito sa buong pagkakasunud-sunod ng mga naka-encode na mensahe. (No. 11)
Sa parehong oras, si Claude Shannon ay nagbalangkas ng teorya ng impormasyon at inilatag ni Norbert Wiener ang mga konseptong pundasyon ng cybernetics. At sa lalong madaling panahon ang pera ay inilaan para sa pananaliksik, at ang pagsasalin ng makina ay naging isang malayang pang-agham na direksyon, na ipinanganak sa intersection ng matematika at programming.
Ang mga ideya ni Weaver ay naging batayan ng isang diskarte sa MT batay sa konsepto ng interlingua: ang yugto ng paglilipat ng impormasyon ay nahahati sa dalawang yugto; sa unang yugto, ang pinagmulang pangungusap ay isinalin sa isang intermediary na wika (nilikha batay sa pinasimpleng Ingles), at pagkatapos ay ang resulta ng pagsasaling ito ay ipinakita sa pamamagitan ng target na wika. Ang Weaver Memorandum ay pumukaw ng pinakamasiglang interes sa problema ng MP. Noong 1948, gumawa sina A. Booth at Richard Richens ng ilang mga paunang eksperimento (halimbawa, binuo ni Richens ang mga panuntunan para sa paghahati ng mga anyo ng salita sa mga stems at endings).
Sa mga taong iyon, ang mga computer ay medyo naiiba mula sa mga modernong. Ang mga ito ay napakalaki at mamahaling mga makina na kumukuha ng buong mga silid at nangangailangan ng malaking kawani ng mga inhinyero, operator at programmer upang mapanatili ang mga ito. Karaniwan, ang mga computer na ito ay ginamit upang magsagawa ng mga kalkulasyon ng matematika para sa mga pangangailangan ng mga institusyong militar, pati na rin ang mga matematika at pisikal na faculty ng mga unibersidad. Samakatuwid, sa mga unang yugto, ang pagbuo ng mga sistema ng MT ay aktibong suportado ng militar, habang sa USA ang pangunahing pansin ay binabayaran sa direksyon ng Russian-English, at sa USSR - sa Anglo-Russian. Noong 1952, naganap ang unang kumperensya sa pagsasalin ng makina, na inorganisa ng logician at mathematician na si J. Bar-Hillel. Bilang karagdagan sa mga halatang praktikal na pangangailangan, isang mahalagang papel sa pagbuo ng pagsasalin ng makina ay nilalaro ng katotohanan na ang sikat na pagsubok sa katalinuhan (ang "Turing test") na iminungkahi noong 1950 ng English mathematician na si A. Turing ay talagang pinalitan ang tanong kung ang isang makina ay maaaring mag-isip na may tanong kung ang isang makina ay nakikipag-usap sa isang tao sa isang natural na wika sa paraang hindi niya ito makikilala mula sa isang tao na kausap. Kaya, ang mga isyu ng computer processing ng natural na mga mensahe ng wika ay nasa sentro ng pananaliksik sa cybernetics (at kalaunan sa artificial intelligence) sa loob ng mga dekada, at ang produktibong kooperasyon ay itinatag sa pagitan ng mga mathematician, programmer at computer engineer, sa isang banda, at mga linguist, sa kabila.
Sa katunayan, ang kasaysayan ng pagsasalin ng makina ay nagsisimula sa "Georgetown Experiment". Ang IBM, kasama ng Georgetown University (USA), ay matagumpay na naisagawa ang unang eksperimento (na bumagsak sa kasaysayan sa ilalim ng pangalang Georgetown), kung saan ang isang sistema na gumagamit ng diksyunaryo ng 250 salita at isang gramatika ng 6 na syntactic na panuntunan ay isinalin ang 49 pre- mga piling pangungusap. Sa parehong 1954, ang unang eksperimento sa pagsasalin ng makina ay isinagawa sa USSR ni I.K. Belskaya (bahagi ng wika) at D.Yu. at isang sistema ng pagsasalin ng makina mula sa Ingles patungo sa Ruso sa isang unibersal na computer ay binuo ng isang pangkat na pinamumunuan ni Yu. .A.Motorin. Pagkatapos nito, nagsimula ang trabaho sa maraming mga institusyong pang-impormasyon, mga organisasyong pang-agham at pang-edukasyon ng bansa. Ang ideya ng pagsasalin ng makina ay nagpasigla sa pag-unlad ng pananaliksik sa teoretikal at inilapat na lingguwistika sa buong mundo. Lumitaw ang mga teorya ng pormal na grammar, maraming pansin ang binayaran sa pagmomodelo ng wika at mga indibidwal na aspeto nito, aktibidad sa linggwistika at mental, mga tanong ng linguistic form at dami ng mga pamamahagi ng linguistic phenomena. Ang mga bagong lugar ng linguistic science ay lumitaw - computational, mathematical, engineering, statistical, algorithmic linguistics at ilang iba pang sangay ng Applied at theoretical linguistics. Noong 1950s, ang mga departamento ng inilapat na lingguwistika at pagsasalin ng makina ay binuksan sa mga sentrong pang-edukasyon sa maraming bansa sa mundo. Ang pananaliksik at pag-unlad sa pagsasalin ng makina ay nabuksan din sa France, England, USA, Canada, Italy, Germany, Japan, Netherlands, Bulgaria, Hungary at iba pang mga bansa, gayundin sa mga internasyonal na organisasyon kung saan ang dami ng mga pagsasalin mula sa iba't ibang wika ay malaki.
Ang unang henerasyon ng mga sistema ng pagsasalin ng makina ay batay sa mga sunud-sunod na algorithm ng pagsasalin "salita sa salita", "parirala sa parirala". Ang mga kakayahan ng naturang mga sistema ay tinutukoy ng mga magagamit na laki ng mga diksyunaryo, na direktang nakasalalay sa dami ng memorya ng computer. Ang pagsasalin ng teksto ay isinagawa sa magkahiwalay na mga pangungusap, ang mga koneksyon sa semantiko sa pagitan nila ay hindi isinasaalang-alang sa anumang paraan. Ang ganitong mga sistema ay tinatawag na direktang mga sistema ng pagsasalin. Sa paglipas ng panahon, pinalitan sila ng mga sistema ng mga kasunod na henerasyon, kung saan ang pagsasalin mula sa wika patungo sa wika ay isinasagawa sa antas ng mga istrukturang sintaktik. Gumamit ang mga algorithm ng pagsasalin ng isang hanay ng mga operasyon na nagbibigay-daan, sa pamamagitan ng pagsusuri sa isinalin na pangungusap, na buuin ang syntactic structure nito ayon sa mga tuntunin ng grammar ng input sentence na wika, at pagkatapos ay ibahin ito sa syntactic structure ng output sentence at synthesize ang output sentence , pinapalitan ang mga kinakailangang salita mula sa diksyunaryo. Ang ganitong mga sistema ay tinatawag na T-systems (T - mula sa salitang Ingles na "transfer - transformation").
Ang pinakaperpektong diskarte ay itinuturing na ang diskarte sa pagbuo ng mga sistema ng pagsasalin ng makina batay sa pagkuha ng ilang wika-independiyenteng semantikong representasyon ng input na pangungusap sa pamamagitan ng semantic analysis nito. Pagkatapos, ang output na pangungusap ay synthesize ayon sa nakuhang semantikong representasyon. Ang ganitong mga sistema ay tinatawag na I-systems (I - mula sa salitang "interlingua"). Ito ay pinaniniwalaan na ang mga susunod na henerasyon ng mga sistema ng pagsasalin ng makina ay kabilang sa klase ng mga I-system.
Noong 1950s, maraming grupo ng pananaliksik sa USA at Europe ang nagtrabaho sa larangan ng MT. Ang mga makabuluhang pondo ay namuhunan sa mga pag-aaral na ito, ngunit ang mga resulta ay nabigo sa mga mamumuhunan. Ang isa sa mga pangunahing dahilan para sa mababang kalidad ng MT sa mga taong iyon ay ang limitadong mga kakayahan ng hardware: isang maliit na halaga ng memorya na may mabagal na pag-access sa impormasyong nakapaloob dito, ang kawalan ng kakayahan na ganap na gumamit ng mataas na antas ng mga programming language. Ang isa pang dahilan ay ang kakulangan ng isang teoretikal na batayan na kinakailangan para sa paglutas ng mga problema sa wika, bilang isang resulta kung saan ang mga unang sistema ng MT ay nabawasan sa word-to-word na pagsasalin ng mga teksto nang walang anumang syntactic (at higit pang semantiko) na integridad.
Lumalabas na ang tradisyunal na lingguwistika ay walang aktwal na materyal, o ang mga ideya at representasyon na kailangan upang makabuo ng mga sistema ng pagsasalin ng makina na gagamit ng kahulugan ng isinalin na teksto.
Ang tradisyunal na lingguwistika ay hindi makapagbibigay ng mga panimulang ideya hindi lamang sa mga tuntunin ng semantika, kundi pati na rin sa mga tuntunin ng syntax. Sa oras na iyon, walang mga listahan ng mga syntactic constructions para sa anumang wika, ang mga kondisyon para sa kanilang compatibility at interchangeability ay hindi pinag-aralan, ang mga patakaran para sa pagbuo ng malalaking yunit ng syntactic structure mula sa mas maliit ay hindi binuo. Sa katunayan, wala ni isang katanungang ibinangon kaugnay ng pagtatayo ng mga sistema ng pagsasalin ng makina ang masasagot ng tradisyunal na lingguwistika noong 1950s.
Ang pangangailangan na lumikha ng mga teoretikal na pundasyon ng pagsasalin ng makina ay humantong sa pagbuo ng isang bagong direksyon sa linggwistika, na tinatawag na structural, applied, mathematical linguistics.
Noong 1959 Ang pilosopo, matematiko, logician na si Bar-Hillel ay nagpahayag na ang mataas na kalidad na ganap na awtomatikong MT (FAHQMT) ay hindi makakamit sa prinsipyo. Bilang halimbawa, ibinigay niya ang problema sa paghahanap ng tamang pagsasalin para sa salitang panulat sa sumusunod na konteksto: Hinahanap ni John ang kanyang kahon ng laruan. Sa wakas ay natagpuan niya ito. Ang kahon ay nasa panulat. Tuwang-tuwa si John. (Hinahanap ni John ang kanyang kahon ng laruan. Sa wakas ay nakita niya ito. Nasa playpen ang kahon. Tuwang-tuwa si John.). Panulat sa kasong ito ay hindi dapat isalin bilang "panulat" (panulat), ngunit bilang "playpen" (play-pen). Ang pagpili ng ito o iyon na pagsasalin sa kasong ito at sa ilang iba pa ay tinutukoy ng kaalaman sa extralinguistic na realidad, at ang kaalamang ito ay masyadong malawak at iba-iba upang maipasok sa isang computer. Gayunpaman, hindi itinanggi ni Bar-Hillel ang ideya ng MT bilang tulad, isinasaalang-alang ang pagbuo ng mga sistema ng makina na nakatuon sa kanilang paggamit ng isang tagapagsalin ng tao (isang uri ng "human-machine symbiosis") bilang isang promising na direksyon.
Ang pagganap na ito ay may pinaka-hindi kanais-nais na epekto sa pagbuo ng MP sa USA. Noong 1966, ang ALPAC (Automatic Language Processing Advisory Committee) na espesyal na nilikha ng National Academy of Sciences, batay, bukod sa iba pang mga bagay, sa mga natuklasan ni Bar-Hillel, ay dumating sa konklusyon na ang pagsasalin ng makina ay hindi kumikita: ang ratio ng gastos at ang kalidad ng MT ay malinaw na hindi pabor sa huli.at mayroong sapat na human resources para sa mga pangangailangan ng pagsasalin ng teknikal at siyentipikong mga teksto. Ang ulat ng ALPAC ay sinundan ng pagbawas sa pagpopondo ng gobyerno ng US para sa pananaliksik sa MT - sa kabila ng katotohanang sa panahong iyon, hindi bababa sa tatlong magkakaibang sistema ng MT ang regular na ginagamit ng ilang mga organisasyong militar at siyentipiko.
Sa susunod na sampung taon (60s) ang pagbuo ng mga MT system ay isinagawa sa USA ng Brigham Young University sa Provo, Utah (mga unang sistema ng komersyal na WEIDNER at ALPS) at pinondohan ng Simbahang Mormon na interesado sa pagsasalin ng Bibliya; sa Canada ng mga research team kabilang ang TAUM sa Montreal kasama ang METEO system nito; sa Europa - mga pangkat GENA (Grenoble) at SUSY (Saarbrücken). Ang espesyal na pagbanggit ay dapat gawin sa gawain sa lugar na ito ng mga domestic linguist, tulad ng I.A. Melchuk at Yu.D. Apresyan (Moscow), na nagresulta sa linguistic processor na ETAP. Noong 1960, isang eksperimental na laboratoryo sa pagsasalin ng makina ay inayos bilang bahagi ng Research Institute of Mathematics and Mechanics sa Leningrad, na kalaunan ay binago sa laboratoryo ng mathematical linguistics ng Leningrad State University.
Sa pag-unlad ng teknolohiya ng computer sa huling bahagi ng 70s (ang paglitaw ng mga microcomputer, ang pag-unlad ng mga network, ang pagtaas ng mga mapagkukunan ng memorya), ang pagsasalin ng makina ay pumasok sa isang bagong rut. Kasabay nito, medyo nagbago ang diin: itinakda na ngayon ng mga mananaliksik bilang kanilang layunin ang pagbuo ng "makatotohanan" na mga sistema ng MT na ipinapalagay ang partisipasyon ng tao sa iba't ibang yugto ng proseso ng pagsasalin.
Ang isang bagong pagtaas ng pananaliksik sa larangan ng MT ay nagsimula noong 1970s at nauugnay sa mga pangunahing pagsulong sa larangan ng computer simulation ng intelektwal na aktibidad. Ang kaukulang lugar ng pananaliksik, na lumitaw nang medyo huli kaysa sa MP, ay tinawag artificial intelligence, at ang paglikha ng mga machine translation system ay naintindihan noong 1970s bilang isa sa mga partikular na gawain ng bagong direksyon ng pananaliksik na ito.
Mayroong dalawang pangunahing insentibo para sa pagbuo ng gawaing pagsasalin ng makina sa modernong mundo. Ang una ay talagang siyentipiko; ito ay tinutukoy ng pagiging kumplikado at pagiging kumplikado ng computer simulation ng pagsasalin. Bilang isang uri ng aktibidad sa lingguwistika, ang pagsasalin ay nakakaapekto sa lahat ng antas ng wika - mula sa pagkilala sa mga graphemes (at mga ponema sa pagsasalin ng oral speech) hanggang sa paglipat ng kahulugan ng pagbigkas at teksto. Bilang karagdagan, ang pagsasalin ay nailalarawan sa pamamagitan ng feedback at ang kakayahang agad na subukan ang isang teoretikal na hypothesis tungkol sa istruktura ng ilang mga antas ng wika at ang pagiging epektibo ng mga iminungkahing algorithm. Ang katangiang ito ng pagsasalin sa pangkalahatan at sa partikular na pagsasalin ng makina ay umaakit sa atensyon ng mga teorista, bilang resulta kung saan ang mga bagong teorya ng automation ng pagsasalin at ang pormalisasyon ng data at proseso ng wika ay patuloy na lumalabas.
Ang pangalawang insentibo ay panlipunan, at ito ay dahil sa lumalaking papel ng pagsasanay ng pagsasalin mismo sa modernong mundo bilang isang kinakailangang kondisyon para sa pagtiyak ng interlingual na komunikasyon, na ang dami nito ay tumataas bawat taon. Ang iba pang mga paraan ng pagtagumpayan ng mga hadlang sa wika sa paraan ng komunikasyon - ang pagbuo o pag-ampon ng isang karaniwang wika, pati na rin ang pag-aaral ng mga banyagang wika - ay hindi maihahambing sa pagsasalin sa mga tuntunin ng kahusayan. Mula sa puntong ito, masasabing walang alternatibo sa pagsasalin, kaya ang pagbuo ng mataas na kalidad at mataas na pagganap na mga sistema ng pagsasalin ng makina ay nakakatulong sa paglutas ng pinakamahalagang gawaing panlipunan at komunikasyon.
Sa panahon ng 1978-93, 20 milyong dolyar ang ginugol sa pananaliksik sa larangan ng MT sa USA, 70 milyon sa Europa, at 200 milyon sa Japan.
Ang isa sa mga bagong pag-unlad ay ang teknolohiya ng TM (translation memory), na gumagana sa prinsipyo ng akumulasyon: sa panahon ng proseso ng pagsasalin, ang orihinal na segment (pangungusap) at ang pagsasalin nito ay nai-save, na nagreresulta sa pagbuo ng isang linguistic database; kung ang isang kapareho o katulad na segment ay matatagpuan sa bagong isinalin na teksto, ito ay ipinapakita kasama ng pagsasalin at isang indikasyon ng porsyento na tugma. Ang tagasalin pagkatapos ay gumawa ng desisyon (upang i-edit, tanggihan o tanggapin ang pagsasalin), ang resulta nito ay iniimbak ng system. Ang isang kilalang komersyal na sistema batay sa teknolohiya ng TM ay kasalukuyang binuo ng TRADOS system (itinatag noong 1984).
Sa USSR, noong 1974, ang All-Union Center para sa Pagsasalin ng Scientific and Technical Literature and Documentation (ATC) ay itinalaga bilang head organization para sa machine translation, na pumalit sa koordinasyon ng trabaho sa isang pambansang sukat. Sa ilalim ng kanyang pamumuno, idinaos ang ilang pangunahing internasyonal na pang-agham na kumperensya sa pagsasalin ng makina at mga problema ng siyentipiko at teknikal na pagsasalin. Ang VCP ay lumikha ng mga sistemang pang-industriya para sa pagsasalin ng makina mula sa Ingles patungo sa Russian AMPAR (batay sa pagsasaliksik at pagpapaunlad ng pangkat ng Yu.A. Motorin), mula sa Aleman patungo sa Russian NERPA, mula sa Pranses patungo sa Russian FRAP, mga awtomatikong terminolohikal na diksyonaryo upang matulungan ang isang tao tagasalin . Ang sistema ng AMPAR ay nasa komersyal na operasyon sa mahabang panahon; nang maglaon, sa batayan nito, nilikha ang mas mahusay na mga MT system para sa mga personal na computer ng pamilyang SPRINT. Binuo din ng HCV ang sistema ng ASPERA MT mula sa Russian patungo sa Ingles. Ang isang mahusay na kontribusyon sa pagbuo ng mga pang-industriyang MT system ay ginawa ng Leningrad All-Union Group na "Speech Statistics" sa ilalim ng pamumuno ni R.G. Piotrovsky, pati na rin ang mga grupo ng mga espesyalista sa computational linguistics sa Minsk (A.V. Zubov), Chisinau (V.A. Makhachkala). (AIChaplya), Chimkent (KBBektaev), Samarkand (Kh.A.Arzikulov) at iba pa. gamit ang mga machine translation system gaya ng Stylus, Socrat at iba pa.
Ang unang komersyal na mga produkto ng pagsasalin ng makina na nakahanap ng praktikal na paggamit ay lumitaw noong kalagitnaan ng 1980s.
Sa kasalukuyan, sa Russian Federation, ang ilang gawain ay nagpapatuloy sa maliit na sukat sa mga sistema ng MT batay sa "text-sense-text" na diskarte, ang hindi palaging malinaw na binibigkas na slogan kung saan sa oras na ang diskarte na ito ay nabigyang-katwiran noong 1960s ay "machine. pagsasalin na walang pagsasalin, walang makina, walang algorithm" (tingnan ang pagsusuri ng mga gawa sa direksyong ito ni L.N. Belyaeva at M.I. Otkupshchikova). Ang ideya ng diskarte ay ang linguist ay nangangailangan lamang ng isang deklaratibong paglalarawan ng mga katotohanan ng wika (iyon ay, isang linguistic na teorya na nagsasabing, gayunpaman, ay partikular na tumpak at pormal), at ang mga algorithm ng pagsasalin ay ipunin ng isang programmer at isang mathematician. Bilang bahagi ng mga pag-aaral na ito, nakuha ang makabuluhang teoretikal at linguistic na mga resulta (sa partikular, isang teorya ng tinatawag na lexical function ang nilikha, na natagpuan ang aplikasyon sa lexicography), ngunit ang diskarteng ito ay hindi sapat na epektibo upang lumikha ng mga praktikal na sistema ng ganitong uri. . Ang mga posibilidad ng teknolohiya ng computer na lumago nang hindi masusukat sa nakalipas na mga dekada at mga bagong diskarte sa programming ay hindi maaaring makatulong sa anumang paraan upang maipatupad ang mga ideya ng pagsusuri at synthesis batay sa priyoridad na ibunyag lamang ang syntactic na istraktura na may kasunod na paglipat sa kahulugan. Ang pagkakakilanlan ng nilalaman ng teksto sa loob ng interface ng tao-machine ay maaaring isagawa, tulad ng sa anumang inilapat na gawain, gamit lamang ang parehong deklaratibo at procedural na kaalaman at may malaking pag-asa sa bokabularyo. Ang pananaw na ito ay napatunayan, lalo na, sa mga kamakailang gawa ni A.S. Narinyani, isang domestic specialist sa programming at artificial intelligence.
1.2 Paano gumagana ang machine translation.
Ang mga MP system ay nagsasagawa ng awtomatikong pagsasalin ng teksto. Sa kasong ito, ang mga yunit ng pagsasalin ay mga salita o parirala, at pinapayagan ng mga pinakabagong pag-unlad na isinasaalang-alang ang morpolohiya ng isinalin na salita. Ang mga binuong MT system ay nagsasagawa ng pagsasalin ayon sa mga algorithm ng pagsasalin na tinukoy ng developer at/o inayos ng user. Upang ipatupad ang pagsasalin ng makina, isang espesyal na programa ang ipinakilala sa computer na nagpapatupad ng algorithm ng pagsasalin, na nauunawaan bilang isang pagkakasunud-sunod ng hindi malabo at mahigpit na tinukoy na mga aksyon sa teksto upang makahanap ng mga tugma sa pagsasalin sa isang partikular na pares ng mga wika A1 - A2 para sa isang ibinigay na direksyon ng pagsasalin (mula sa isang tiyak na wika patungo sa isa pa). Kasama sa sistema ng pagsasalin ng makina ang mga bilingual na diksyunaryo na nilagyan ng kinakailangang impormasyon sa gramatika (morphological, syntactic at semantic) upang matiyak ang paglilipat ng katumbas, variant at transformational na mga sulat sa pagsasalin, pati na rin ang mga algorithmic grammatical analysis tool na nagpapatupad ng alinman sa mga pormal na grammar na pinagtibay para sa awtomatikong pagproseso ng teksto. . Mayroon ding mga stand-alone na machine translation system na idinisenyo upang magsalin sa loob ng tatlo o higit pang mga wika, ngunit ang mga ito ay kasalukuyang eksperimental. Ang pinakakaraniwan ay ang sumusunod na pagkakasunud-sunod ng mga pormal na operasyon na nagbibigay ng pagsusuri at synthesis sa isang sistema ng pagsasalin ng makina: 1. Sa unang yugto, ang teksto ay ipinasok at ang mga form ng salita sa input (mga salita sa isang tiyak na gramatikal na anyo, na isinasalin) na may kasamang morphological analysis, kung saan ang pag-aari ng isang binigay na anyo ng salita sa isang tiyak na lexeme (isang salita bilang isang yunit ng diksyunaryo) ay itinatag. Sa proseso ng pagsusuri, ang impormasyon na may kaugnayan sa iba pang antas ng organisasyon ng sistema ng wika ay maaari ding makuha mula sa anyo ng salita. 2. Kasama sa susunod na yugto ang pagsasalin ng mga idiomatic na parirala, mga yunit ng parirala o mga selyo ng isang partikular na lugar ng paksa (halimbawa, sa pagsasalin ng English-Russian, ang mga pariralang tulad nito ay kung bakit, sa anyo ng pagtanggap ng isang solong digital na katumbas at hindi kasama mula sa karagdagang pagsusuri sa gramatika); pagpapasiya ng pangunahing gramatikal (morphological, syntactic, semantic at lexical) na mga katangian ng mga elemento ng input text (halimbawa, ang bilang ng mga pangngalan, verb tense, syntactic function ng mga anyo ng salita sa tekstong ito), na ginawa sa loob ng input language; resolution ng homography (conversion homonymy ng mga anyo ng salita - sabihin, English. bakit maaaring maging pangngalan, interjection, pang-abay); lexical analysis at pagsasalin ng lexemes. Karaniwan, sa yugtong ito, ang mga salitang may iisang halaga ay inihihiwalay mula sa mga polysemantic (na may higit sa isang katumbas na pagsasalin sa target na wika), pagkatapos nito ay isinalin ang mga salitang may iisang halaga ayon sa mga listahan ng katumbas, at ginagamit ang tinatawag na mga kontekstolohikal na diksyunaryo. upang isalin ang mga polysemantic na salita, ang mga entry sa diksyunaryo kung saan ay mga algorithm para sa pag-query ng konteksto sa pagkakaroon/kawalan ng mga determinant ng halaga ng konteksto.3. Ang panghuling pagsusuri sa gramatika, kung saan tinutukoy ang kinakailangang impormasyon sa gramatika, na isinasaalang-alang ang data ng target na wika (halimbawa, sa mga pangngalang Ruso tulad ng sleigh, gunting, ang pandiwa ay dapat na maramihan, sa kabila ng katotohanan na ang orihinal ay maaaring may isahan. Ngunit kasabay nito, ang salitang "Russian" na "porosya" ay lumalabas na isang reflexive na pandiwa na may kahulugan ng isang pangngalan. "Gaano man ang pagsusuri ng salitang Ruso na "porosya", mula sa isang linguistic na punto ng view, ito ay ganap na hindi maihahambing sa reflexive verbs sa - Xia. Ang linguistic articulation ng isang salita at ang articulation ng isang salitang "convenient" para sa isang makina ay walang pagkakatulad. (No. 4))
4. Sintesis ng mga anyo ng output na salita at mga pangungusap sa pangkalahatan sa target na wika. Depende sa mga tampok ng morphology, syntax at semantics ng isang partikular na pares ng wika, pati na rin ang direksyon ng pagsasalin, ang pangkalahatang algorithm ng pagsasalin ay maaaring magsama ng iba pang mga yugto, pati na rin ang mga pagbabago sa mga yugtong ito o kanilang pagkakasunud-sunod, ngunit ang mga variation ng ganitong uri sa modernong mga sistema ay karaniwang hindi gaanong mahalaga. Ang pagsusuri at synthesis ay maaaring isagawa kapwa sa pamamagitan ng parirala at para sa buong teksto na ipinasok sa memorya ng computer; sa huling kaso, ang translation algorithm ay nagbibigay para sa kahulugan ng tinatawag na anaphoric links.
Ang mga kasalukuyang sistema ng pagsasalin ng makina ay nagta-target ng mga partikular na pares ng wika (halimbawa, French at Russian o Japanese at English) at kadalasang gumagamit ng mga translational na sulat alinman sa surface level o sa ilang intermediate level sa pagitan ng input at output na mga wika. Ang kalidad ng pagsasalin ng makina ay nakasalalay sa dami ng diksyunaryo, ang dami ng impormasyong iniuugnay sa mga lexical na unit, sa pagiging masinsinan ng pag-compile at pagsuri sa operasyon ng mga algorithm ng pagsusuri at synthesis, at sa pagiging epektibo ng software. Ang anumang mahusay na diksyunaryo ay kumukuha hindi lamang ng mga salita, kundi pati na rin ang madalas na nagaganap na mga kumbinasyon ng mga salita, i.e. microcontext ng mga kaukulang unit. Halimbawa, sa salitang "totoo" ang kumbinasyong "sa kasalukuyan" ay maaaring ibigay - gegenwartig, actuellement, na may salitang "karanasan" - ang kumbinasyon: "upang magsagawa ng eksperimento" - Eksperimento, durchfiihren at ang kumbinasyong "eksperimento ni" - Experiment mit (experiences sur, essay de).
Kasabay nito, ang isang mahusay na diksyunaryo ay nagpapahiwatig ng mga kumbinasyon na "postal order", "money order" - German. Mag-post ng "s anweisung, French mandat poste, at dahil hindi pa namin nakikilala ang kumbinasyong ito, ibubukod ang mga kaukulang pagsasalin. (No. 18)
Pinapayagan ng modernong hardware at software ang paggamit ng malalaking diksyunaryo na naglalaman ng detalyadong impormasyon sa gramatika. Ang impormasyon ay maaaring iharap sa parehong declarative (descriptive) at procedural (isinasaalang-alang ang mga pangangailangan ng algorithm) form.
Ang modernong pagsasalin ng makina ay dapat na naiiba sa paggamit ng mga kompyuter upang tulungan ang tagapagsalin ng tao. Sa huling kaso, ang ibig naming sabihin ay isang awtomatikong diksyunaryo na tumutulong sa isang tao na mabilis na piliin ang nais na katumbas ng pagsasalin. Bagama't sa parehong mga kaso, gumagana ang computer kasama ng isang tao (translator o editor). Ang nilalaman ng terminong "pagsasalin ng makina" ay kinabibilangan ng ideya na ang makina ang sumasakop sa pangunahing, karamihan sa gawain ng pagsasalin at paghahanap ng mga katumbas ng pagsasalin at mga sulat sa pagsasalin, na iniiwan lamang ang isang tao upang kontrolin at itama ang mga pagkakamali, habang ang isang diksyunaryo ng computer ay makakatulong. isang tao - ito ay purong tulong sa mabilis na paghahanap ng mga isinaling tugma; sa parehong oras, gayunpaman, sa mga naturang diksyunaryo, sa isang limitadong lawak, ang ilang mga function na likas sa mga sistema ng pagsasalin ng makina ay maaari ding ipatupad.
Sa pagsasanay sa pagsasalin at sa teknolohiya ng impormasyon, mayroong dalawang pangunahing diskarte sa pagsasalin ng makina. Sa isang banda, ang mga resulta ng pagsasalin ng makina ay maaaring gamitin para sa mababaw na kakilala sa nilalaman ng isang dokumento sa isang hindi pamilyar na wika. Sa kasong ito, maaari itong magamit bilang impormasyon ng signal at hindi nangangailangan ng maingat na pag-edit. Ang isa pang diskarte ay kinabibilangan ng paggamit ng machine translation sa halip na ang karaniwang "tao". Ito ay nagsasangkot ng maingat na pag-edit at pagpapasadya ng sistema ng pagsasalin para sa isang partikular na lugar ng paksa. Ang pagkakumpleto ng diksyunaryo, ang pagtutok nito sa nilalaman at hanay ng mga paraan ng wika ng mga isinalin na teksto, ang pagiging epektibo ng mga pamamaraan para sa paglutas ng lexical polysemy, ang pagiging epektibo ng mga algorithm para sa pagkuha ng gramatikal na impormasyon, paghahanap ng mga sulat sa pagsasalin at synthesis algorithm ay gumaganap ng isang papel dito. Sa pagsasagawa, ang pagsasalin ng ganitong uri ay nagiging matipid sa ekonomiya kung ang dami ng isinalin na mga teksto ay sapat na malaki (hindi bababa sa ilang sampu-sampung libong mga pahina bawat taon), kung ang mga teksto ay sapat na homogenous, ang mga diksyunaryo ng system ay kumpleto at nagbibigay-daan para sa karagdagang pagpapalawak, at ang software ay maginhawa para sa post-editing. Ang ganitong uri ng mga sistema ng pagsasalin ng makina ay ginagamit sa mga organisasyon na ang mga pangangailangan para sa mabilis at mataas na kalidad na mga pagsasalin ay medyo malaki.
1.3 Mga sistema ng pagsasalin ng makina at ang kanilang pag-uuri.
Noong 1990, iminungkahi ni Larry Childs, isang dalubhasa sa pagsasalin ng makina, ang sumusunod na pag-uuri ng mga MT system batay sa prinsipyo ng kalayaan ng makina mula sa mga aksyon ng tao, na ngayon ay naging pangkalahatang tinatanggap:
FAMT (Ganap na - automated machine translation) - ganap na automated machine translation;
HAMT (Human - assisted machine translation) - machine translation na may partisipasyon ng isang tao;
· MAHT (Machine - assisted human translation) - pagsasalin na isinasagawa ng isang tao gamit ang computer.
Ang mga programa sa pagsasalin ng makina ng una sa mga kategoryang ito ay isang bagay ng malayong hinaharap, dahil kahit na sa isang pangkalahatang anyo ang mga problema ng awtomatikong pag-unawa, pagsasalin at synthesis ng mga teksto ay hindi nalutas. Ang pangunahing problema ay ang pagiging kumplikado ng wika mismo. Kunin, halimbawa, ang mga kahulugan ng salitang Ingles na "can". Bilang karagdagan sa pangunahing kahulugan ng modal auxiliary verb, ang salitang "can" ay may ilang opisyal at slang na kahulugan bilang isang pangngalan: "can", "can", "stop", "stop", "chimney cap", "prison ". Bilang karagdagan, mayroong isang archaic na kahulugan ng salitang ito - "upang malaman o maunawaan." Ipagpalagay na ang target na wika ay may isang hiwalay na salita para sa bawat isa sa mga halagang ito, paano matukoy ng isang computer ang mga ito?
Sa lumalabas, ilang pag-unlad ang nagawa sa pagbuo ng mga programa sa pagsasalin na nagdidiskrimina ng kahulugan batay sa konteksto. Ang mga kamakailang pag-aaral sa pagsusuri ng mga teksto ay higit na umaasa sa teorya ng posibilidad. Gayunpaman, ngayon ang lahat ng "naka-box" na mga produkto ay mga tagasalin, at ang mga serbisyong online ay binuo lamang ayon sa pamamaraan ng FAMT.(No. 8,15)
Ang mga developer ay tumatawag sa mga programa ng pangalawang kategorya na MT-programs (mula sa Machine translation - machine translation). Ang tunay na automated (na may partisipasyon ng tao) machine translation ay posible lamang sa ilalim ng mga kondisyon ng artipisyal na limitadong wika, parehong sa mga tuntunin ng bokabularyo at grammar. Sa pagsasalita tungkol sa pagsasalin ng makina na may partisipasyon ng isang tao, karaniwan nilang ibig sabihin ay pag-edit ng mga teksto bago at pagkatapos na maproseso ng isang computer. Ang mga tagapagsalin ng tao ay nagbabago ng mga teksto upang sila ay maunawaan ng mga makina. Matapos magawa ng computer ang pagsasalin, muling ine-edit ng mga tao ang magaspang na pagsasalin ng makina, na ginagawang tama ang teksto sa target na wika. Bilang karagdagan sa ganitong pagkakasunud-sunod ng trabaho, may mga MT system na nangangailangan ng patuloy na presensya ng isang taong tagapagsalin sa panahon ng pagsasalin upang matulungan ang computer na magsalin lalo na ang mga kumplikado o hindi maliwanag na mga istruktura. Ang pagsasalin ng makina na tinulungan ng tao ay naaangkop sa mas malawak na lawak sa mga tekstong may limitadong bokabularyo ng limitadong limitadong mga paksa. Ang ekonomiya ng paggamit ng human-assisted machine translation ay pinagtatalunan pa rin. Ang mga programa mismo ay karaniwang medyo mahal, at ang ilan sa mga ito ay nangangailangan ng espesyal na kagamitan upang gumana. Kailangang sanayin ang pre at post editing. Ang paglikha at pagpapanatili ng mga database ng mga salita ay isang matrabahong proseso at kadalasan ay nangangailangan ng mga espesyal na kasanayan.Ang German Meteo system, na nagsasalin ng mga pagtataya ng panahon mula sa French sa English at vice versa, ay palaging binabanggit bilang isang tunay na matagumpay na proyekto ng MT program.
Kasama rin sa mga programa ng MT ang mga produkto ng pagsasalin ng makina mula sa PROMT.
Ang mga developer ay tumatawag sa mga programa ng ikatlong kategorya na TM-programs (mula sa translation memory - translation memory). Pagsasalin na isinagawa ng isang tao gamit ang isang computer. Sa pamamaraang ito, ang tagapagsalin ng tao ay inilalagay sa gitna ng proseso ng pagsasalin, habang ang computer program ay itinuturing na isang tool na ginagawang mas mahusay ang proseso ng pagsasalin at tumpak ang pagsasalin. Narito ang isang listahan ng mga pinakasikat na TM system: - Transit mula sa Swiss company na Star, - Trados (USA), - Translation Manager mula sa IBM, - Eurolang Optimizer mula sa French company na LANT, - DejaVu mula sa ATRIL (USA), - WordFisher (Hungary). Ginagawang posible ng mga system ng TM na ibukod ang paulit-ulit na pagsasalin ng magkaparehong mga fragment ng teksto. Ang pagsasalin ng isang segment ay isinasagawa ng tagasalin nang isang beses lamang, at pagkatapos ang bawat kasunod na segment ay sinusuri para sa isang tugma (puno o malabo) sa database, at kung ang isang kapareho o katulad na segment ay natagpuan, pagkatapos ito ay inaalok bilang isang pagsasalin opsyon. Sa kabila ng malawak na hanay ng mga sistema ng TM, nagbabahagi sila ng ilang karaniwang mga tampok: - Pag-andar ng Alignment. Isa sa mga bentahe ng mga sistema ng TM ay ang kakayahang gumamit ng mga naisalin nang materyales sa paksang ito. Ang database ng TM ay maaaring makuha sa pamamagitan ng paghahambing ng segment-by-segment ng orihinal at mga file ng pagsasalin. - Availability ng mga filter ng import-export. Tinitiyak ng property na ito ang compatibility ng TM system na may iba't ibang word processor at publishing system at binibigyan ang tagasalin ng relatibong kalayaan mula sa customer. - Mekanismo para sa paghahanap ng malabo o kumpletong mga tugma. Ito ang mekanismong ito na kumakatawan sa pangunahing bentahe ng mga sistema ng TM. Kung, kapag nagsasalin ng isang text, ang system ay nakatagpo ng isang segment na kapareho o malapit sa naunang isinalin, kung gayon ang na-translate na segment ay iaalok sa tagasalin bilang isang variant ng pagsasalin ng kasalukuyang segment, na maaaring itama. Ang antas ng fuzzy na pagtutugma ay itinakda ng user. - Suporta para sa mga pampakay na diksyunaryo. Ang tampok na ito ay tumutulong sa tagasalin na manatili sa glossary. Bilang isang tuntunin, kung ang isang isinaling segment ay naglalaman ng isang salita o parirala mula sa isang pampakay na diksyunaryo, ito ay naka-highlight sa kulay at ang pagsasalin nito ay inaalok, na maaaring awtomatikong maipasok sa isinalin na teksto. - Paraan ng paghahanap ng mga fragment ng teksto. Napakadaling gamitin ng tool na ito kapag nag-e-edit ng pagsasalin. Kung sa proseso ng trabaho ay natagpuan ang isang mas matagumpay na bersyon ng pagsasalin ng anumang fragment ng teksto, kung gayon ang fragment na ito ay matatagpuan sa lahat ng mga segment ng TM, pagkatapos nito ang mga kinakailangang pagbabago ay sunud-sunod na ginawa sa mga segment ng TM. Siyempre, tulad ng anumang produkto ng software, ang mga sistema ng TM ay may kanilang mga pakinabang at disadvantages, at ang kanilang saklaw. Gayunpaman, tungkol sa mga sistema ng TM, ang pangunahing kawalan ay ang kanilang mataas na gastos. Ito ay lalong maginhawang gumamit ng mga TM system kapag nagsasalin ng mga dokumento tulad ng mga manwal ng gumagamit, mga tagubilin sa pagpapatakbo, disenyo at dokumentasyon ng negosyo, mga katalogo ng produkto at iba pang mga dokumento ng parehong uri na may malaking bilang ng mga tugma.
Kadalasan ang mga programa ng TM ay ginagamit kasabay ng mga programa ng MT. Ang pinakasikat na tool ng TM sa mundo ay Trados' Translation's Workbench (madalas na tinatawag ding Trados para sa maikli).
Gayunpaman, mayroong isang impresyon na ang mga mapagkukunan ng pag-unlad sa direksyon na ito ay halos naubos na, at nang walang paglipat sa mga bagong teknolohiya, ang isang radikal na pagpapabuti sa kalidad ng pagsasalin ay hindi makakamit. Kasama sa mga naturang bagong teknolohiya ang paglahok ng user sa proseso ng pagsasalin, pati na rin ang:
awtomatikong pagtukoy ng konteksto ng paggamit ng isang salita upang makapili ng sapat na kahulugan ng diksyunaryo para sa pagsasalin;
paggamit ng mga base ng kaalaman, na naglalaman ng impormasyon tungkol sa lugar ng paksa;
· Pag-aaral sa sarili ng system sa kurso ng pakikipag-ugnayan sa gumagamit.
Hanggang kamakailan lamang, ang mga ganitong pagkakataon sa isang personal na computer ay wala sa tanong. Ngayon ang kapangyarihan at kapasidad ng memorya ay sapat na, mayroon lamang mga sistema na magbibigay ng magandang kalidad ng pagsasalin.(№ 15)
Ang mga modernong komersyal na produkto ng pagsasalin ng makina ay inaalok ng mga domestic na kumpanya:
· "Vista Technologies" at "Adventis", na nabuo noong 1991 ng isang pangkat ng mga developer na humiwalay sa VINITI;
· PROMT, nabuo noong 1991;
"Media Lingua".
Ang pinakasikat sa mga machine translation system na pinapatakbo sa ibang bansa ay ang SYSTRAN system, na binuo at pinananatili ng SYSTRAN Software Inc. at ginagamit ng Machine Translation Service ng Komisyon ng European Union. Ang serbisyong ito, na nagsasalin ng humigit-kumulang 2.5 milyong mga pahina bawat taon, ay gumagamit ng sistema ng SYSTRAN upang isalin mula sa Ingles sa German, French, Spanish, Greek at Italian, at mula sa French sa English, Spanish at Italian. Mga pakinabang ng system:
ang resultang teksto ay maaaring mai-edit nang madali at mabilis;
· posibleng magsalin ng malaking halaga ng mga materyal na pang-agham at teknikal;
Ang sistema ay "multilingual";
· Ang mga solusyon sa engineering ay medyo simple (karaniwang mga computer).
Ang isa sa mga pangunahing bentahe ay nakasalalay sa katotohanan na tinitiyak ng MT ang pagsunod sa pare-pareho, pare-parehong terminolohiya, habang sa pagsasalin ng tao ng terminolohiyang bokabularyo ay kadalasang may hindi pagkakapare-pareho. Ang kalamangan na ito ay napakahalaga para sa siyentipiko at teknikal na pagsasalin. Ang bilis ng pagsasalin ay 1 milyong salita kada oras para sa oras (gawa ng gitnang processor.
Ang system ay nagbibigay ng tamang pagsasalin ng mga diagram, mga graph at iba pang mga di-text inclusions. Maaaring ipasok ang mga pagbabago sa computer, halimbawa, kapag nagbago ang pamantayan para sa terminolohiya. Ang mga pagwawasto ng mga editor ay unti-unting naipon at ipinapasok sa diksyunaryo.
Ang SISTRAN linguistic analyzer ay binubuo ng sumusunod na apat na pangunahing yugto. Niresolba ng unang hakbang ang homography. Sinusuri ng pangalawa ang pangungusap mula kanan pakaliwa, na naaalala, kapag lumilipat mula sa salita patungo sa salita, kung anong mga uri ng syntactic na relasyon ang posibleng posible sa loob ng bawat independiyenteng pangungusap, na ibinigay sa mga uri ng mga salitang nakatagpo. Gamit ang isang set ng mga rehistro na naglalaman ng data tungkol sa mga posibleng uri ng syntactic relations, ang yugtong ito ay nagtatatag ng mga pangunahing istruktura sa loob ng pangungusap (verb plus object, preposition plus object, atbp.). Ang ikatlong yugto, paglipat mula kaliwa pakanan, ay pinipino ang mga ugnayang ito sa pamamagitan ng pagtukoy sa mga uri ng bagay, tiyak na istruktura, atbp. ng mga pangungusap na ito, pagtukoy sa paksa at panaguri sa bawat isa sa mga pangungusap na ito.
Dapat tandaan na sa ilang mga kaso ang impormasyon ay maaaring ilipat mula sa isang pangungusap patungo sa isa pa. Ang isang espesyal na lugar ay nakalaan sa memorya ng computer para sa naturang impormasyon. Ito ay kinakailangan lalo na para sa pagsasalin ng mga panghalip, na ang mga antecedent ay maaaring nasa ibang pangungusap. Ang mga pangunahing gawain na ginagawa ng SISTRAN universal software ay ang mga sumusunod:
pagbabasa ng teksto;
Paghiwa-hiwalayin ang teksto sa mga salita
maghanap ng mga salita sa iba't ibang mga diksyunaryo;
pagtatalaga ng mga code ng diksyunaryo sa mga salita o parirala ng teksto;
paglalaan ng memorya para sa nasuri na mga pangungusap;
kontrol sa pagpapatupad ng mga programa sa pagsasalin;
paghahanda ng pagsasalin para sa paglilimbag, pagpapalabas sa microfiche, atbp.
Ang software ng system ay nagbibigay-daan para sa bilis ng pagsasalin na 200,000 -300,000 salita kada oras. (No. 11)
Ang dekada 90 ay nagdala ng mabilis na pag-unlad ng merkado ng PC (mula sa desktop hanggang sa bulsa) at teknolohiya ng impormasyon, ang malawakang paggamit ng Internet (na nagiging mas internasyonal at multilinggwal). Ang lahat ng ito ay naging posible, at pinaka-mahalaga, sa demand, ang karagdagang pag-unlad ng MT system. May mga bagong teknolohiya batay sa paggamit ng mga neural network, ang konsepto ng connectionism, at mga pamamaraang istatistika.
Ang kahusayan ng isang modernong MT system ay nakasalalay sa isang tiyak na lawak sa matagumpay nitong pag-tune sa isang partikular na sublanguage (o microsublanguage) ng natural na wika, sa isang partikular na bokabularyo at isang limitadong hanay ng mga gramatika na paraan na katangian ng mga teksto sa isang partikular na paksa, pati na rin tungkol sa mga tiyak na uri ng mga dokumento. Ang doktrina ng mga sublanguages mula sa punto ng view ng pagsasalin ng makina ay unang binuo ni N.D. Andreev (Leningrad University) noong 1967, kahit na ang mga ideya tungkol sa mga rehistro ng wika, estilo, genre ng nakasulat na teksto, atbp. ay kilala sa tradisyunal na linggwistika. Ang sublanguage, mula sa punto ng view ng MT, ay pangunahing tinutukoy ng ilang paunang hanay ng mga teksto, kung saan ang input at output na mga diksyunaryo, ang antas ng distribusyon at ang likas na katangian ng lexical ambiguity ng mga lexemes, ang kalikasan at pagkalat ng syntactic natutukoy ang mga konstruksyon, ang mga paraan ng kanilang pagsasalin sa isang partikular na pares ng wika, atbp. Ang papel ay ginagampanan ng magkatulad na mga teksto at mga diksyonaryo-konkordans, sa tulong kung saan posible na mabisang pag-aralan at gamitin ang lexical na pagkakatugma at pamamahagi (distribusyon) ng mga elemento ng lingguwistika sa pagsasalita (diskurso, teksto) sa pag-iipon ng mga algorithm. Ang mga istatistikal na katangian ng mga sublanguages ay nakakatulong upang i-streamline ang istruktura ng kaukulang pagsusuri at synthesis algorithm. Ang output dictionary, na nakatuon sa mga pangangailangan ng synthesis at transmission ng mga pangunahing uri ng mga sulat sa isang partikular na pares ng wika, ay nagbibigay ng katanggap-tanggap na output text. Anuman sa mga modernong uri ng pagsasalin ng makina ay nangangailangan ng pakikilahok ng isang editor ng tao, ang kaginhawahan nito ay sinisiguro ng kalidad at pagiging maaasahan ng kaukulang software.
Ang mga prospect para sa pagbuo ng machine translation ay nauugnay sa karagdagang pag-unlad at pagpapalalim ng teorya at kasanayan ng pagsasalin, parehong machine at "tao". Para sa pagbuo ng teorya, ang mga resulta ng comparative linguistics, ang pangkalahatang teorya ng pagsasalin, ang teorya ng regular na mga sulat, mga paraan ng kumakatawan sa kaalaman, optimization at pagpapabuti ng linguistic algorithm ay mahalaga. Ang mga bago at mas epektibong mga diksyunaryo na may kinakailangang impormasyon sa bokabularyo, mahigpit na teorya ng terminolohiya ng bokabularyo, teorya at kasanayan sa pagtatrabaho sa mga sublanguage ay makakatulong na mapabuti ang kalidad ng pagsasalin ng mga lexical na unit. Ang mga pormal na grammar na nakatuon sa pagsasalin ay gagawing posible na i-optimize ang mga algorithm para sa paghahanap ng mga sulat sa pagsasalin sa isang partikular na sitwasyong pangkomunikasyon, na maaaring ilarawan sa loob ng balangkas ng mga nauugnay na teorya ng representasyon ng kaalaman. Sa wakas, ang mga bagong posibilidad ng programming at computer na teknolohiya ay makakatulong din sa pagpapabuti at karagdagang pag-unlad ng teorya at praktika ng machine translation “Malayo pa rin sa perpekto ang pagsasalin ng makina, ngunit makakatulong ang sinumang nais nito. Maiintindihan man lang ang pangunahing kahulugan ng dokumento. (Louis Monnier, CTO ng AltaVista.)
1.4 Kalidad ng pagsasalin ng makina
"Ang teorya ng pagsasalin ng makina ay ginagawang posible hindi lamang ang kritikal na pagsusuri sa lahat ng pinakamahalagang tradisyonal na konsepto ng gramatika (mga salita, bahagi ng pananalita, mga miyembro ng pangungusap, atbp.), kundi pati na rin upang suspindihin ang mga hindi pagkakaunawaan sa agham na nasa paligid ng mga konseptong ito. Mula sa posisyong idinidikta ng pagsasalin ng makina, "ang salita ay yaong nililimitahan ng mga pagitan sa pagitan ng mga titik," at "ang pangungusap ay yaong nililimitahan ng ilang mga bantas." isinasalin mula sa isang wika patungo sa isa pa, sa isang tiyak na paraan ito ay walang pakialam kung ano ang ibig sabihin ng mga pormal na kategorya, na inililipat niya mula sa isang wika patungo sa isa pa.(Blg. 4)
Kaya, marami, halimbawa, ang mga salitang may kulay na emosyonal o ilang partikular na mga ekspresyon ay maaaring madama nang iba ng iba't ibang tao (hindi banggitin ang kotse), at ang mga taong ito ay kumakatawan sa iba't ibang lingguwistika at etnikong komunidad (No. 1). Sa kasalukuyan, ang kalidad ng pagsasalin ng makina nag-iiwan ng maraming nais, at ang mismong pag-iral ng gayong mga sistema ay mas wastong napagtanto bilang isang paksa ng siyentipikong pananaliksik. Sa karamihan ng mga kaso, kapag nagtatrabaho sa isang proyekto, ang paggamit ng mga MT system ay hindi makatwiran, dahil: - Ang mga MT system ay hindi nagbibigay ng katanggap-tanggap na kalidad ng output text. Maaaring makamit ang mas mataas na kalidad sa pamamagitan ng paunang pag-tune ng system, na ganap na hindi katanggap-tanggap para sa maliliit na volume ng isinalin na teksto, at/o sa pamamagitan ng post-editing, na nagpapabagal lamang sa trabaho kung ang tagasalin ay gumagamit ng touch typing. - Hindi ginagarantiyahan ng mga MT system ang pagsunod sa pagkakaisa ng terminolohiya, lalo na kapag ang isang pangkat ng mga tagapagsalin ay gumagawa ng isang malaking proyekto. O sa halip, maaari nilang garantiya ito sa ilalim ng kondisyon ng napakaingat na pangangasiwa ng mga diksyunaryo ng gumagamit, at hindi ito palaging nagkakahalaga ng pagbibilang. Gayunpaman, sa ilang mga kaso, ang paggamit ng mga MP system ay nakakatulong pa rin upang mabawasan ang mga gastos sa oras. Nangyayari ito kung ang teksto ay sapat na napakalaki at naglalaman ng mga monotonous na terminolohiya, na ginagawang posible na medyo mabilis na ayusin ang MT system para dito. Kung gayon ang pag-edit ng teksto ay hindi magtatagal ng masyadong maraming oras. Gayunpaman, sa kasong ito, dapat mong bigyang-pansin ang estilo ng teksto ng pagsasalin. Pormal ang pagsasalin sa makina, kaya malaki ang posibilidad na masubaybayan ang mga syntactic na istruktura ng orihinal na wika, na karaniwan para sa pagsasalin sa pangkalahatan, at samakatuwid ay maaaring laktawan sa panahon ng pag-edit. Sa pangkalahatan, maaaring gamitin ang mga MT system kung saan ginagamit ang pinaka-standardized na wika na may simpleng grammar at medyo maliit na bokabularyo. Ang isang medyo matagumpay na proyekto ng MP system ay ang German program na Meteo, na nagsasalin ng mga pagtataya ng lagay ng panahon mula sa French sa English at vice versa. Upang mapadali ang gawain ng mga tagapagsalin at teknikal na manunulat, minsang nakabuo ang Boeing ng pamantayan ng wika para sa pagsulat ng teknikal na dokumentasyon, na kilala bilang Boeing English.
Mula sa philological point of view, ang pagsasalin ay isang authorial operation na ginagawa ng isang taong tagapagsalin sa isang teksto. Napagtatanto ang likas na katangian ng gawain, kumikilos nang may tiyak na sukat ng kamalayan, pag-igting ng atensyon at kalooban, nakakamit ng tagasalin ang epekto ng komunikasyon na nilalayon ng may-akda ng orihinal. Lumilikha ang tagasalin ng isang bagong teksto na perpektong may lahat ng mga tampok ng orihinal. Ang paunang pagbabasa ng tagasalin ng orihinal ay nagbibigay ng pagkakataon na mag-aplay ng isang tiyak na "style effort", dahil sa bawat oras na ang teksto na pinagsama-sama ng isang tao ay naglalaman ng ilang mga pagkakamali laban sa tinatanggap na pamantayan. Ang mga pagkakamaling ito ay maaaring resulta ng iba't ibang dahilan, ngunit higit sa lahat ang mga ito ay resulta ng malayang kalooban ng nagsasalita, na ginagamit niya upang makamit ang isang bagong epekto, na gumagawa din ng isang pagsisikap ng estilo. Dahil sa mga paglabag sa pamantayan, ang anumang pormal na grammar ay hindi kumpleto at hindi magbibigay ng kumpletong saklaw ng mga teksto. Para sa mambabasa ng isinalin na teksto, sa parehong lawak ng para sa mambabasa ng orihinal na teksto, ang psycholinguistic na kamalayan ng teksto ay mahalaga.
Ang machine translation ay isang pagsasalin na walang authorship ng translator. Sa lawak na ang paglikha at kasunod na muling pagdadagdag ng mga algorithm at diksyunaryo ay gawa ng isang pangkat, ang MT ay isang impersonal na kolektibong pagsasalin. Ang MT ay nakabatay sa purong pagsasalin, linguistic na mga sulat, ang MT system ay hindi makagawa ng anumang paunang pagbasa ng teksto, samakatuwid ang MT ay hindi kasama ang textual analysis. Ang paglipat ng kahulugan sa MP ay nakakamit sa pamamagitan ng isang espesyal na pagbabago ng tanda, dahil ang MP: ay isang tiyak na operasyon sa wika, sa kondisyon na ang nilalaman ng sign ay magkapareho. Nagsasagawa ito ng mekanikal na magkasingkahulugan na mga pagpapalit batay sa mga regular na interlingual na pagsusulatan ng ugnayan. Ang mga regular na sulat na ito ay hindi awtomatikong kinukuha mula sa mga repositoryo o mga device tulad ng mga diksyunaryo. Imposibleng imodelo ang communicative function ng isang natural na wika kung ituturing natin ito bilang isang code system lamang; Ang mga pagsusulatan sa pagsasalin ay isang elemento ng dinamika ng paggamit ng wika, at isang sistema na kasiya-siyang nagmomodelo ng pagsasalin ay hindi maaaring isaalang-alang ang mga pagsusulatan sa pagsasalin bilang komprehensibo, multilevel, ngunit sa bawat pagkakataon ay may mga bagong pormasyon. Hindi ang mga sulat sa pagsasalin mismo ang dapat gawing pormal, ngunit ang mga pattern kung saan lumitaw ang mga ito sa mga teksto at sa tulong kung saan matatagpuan ang mga ito sa mga detalye na mahalaga at kinakailangan para sa pagsasalin. Ang ganitong pormalisasyon ay posible sa pamamagitan ng pagmomodelo ng mga aksyon ng tagasalin, kung saan ang espesyal na atensyon ay ibinibigay sa semantic-syntactic analysis sa mga terminong malapit sa mga tradisyonal na naiintindihan ng lahat ng gumagamit ng wika. (No. 11)
Ang makina ng pagsasalin ay hindi gumagawa ng anumang pagsusumikap sa istilo. Ang gawain ng paglalapat ng mga pagsisikap na ito ay nakasalalay sa machine translation reader o editor. Ang mga mekanikal na operasyon na ginagawa ng computer sa teksto ay isang kumplikadong kalikasan: ang sistema ay gumaganap ng pinaka kumpletong recombination ng mga palatandaan at ang kumplikadong pagproseso ng mass information sa wika. Ang pagkakakilanlan, pagkakaiba at pagsasalin sa pagitan ng iba't ibang kategorya ng dalawang wika, pag-aanak ng mga kasingkahulugan at homonym, proseso ng pag-deploy ng mga miyembro ng pangungusap ay isinasagawa, bilang isang resulta kung saan ang pagkakaiba-iba ng mga mahahalagang semantiko na tampok ng kahulugan sa paglipat nito sa ibang wika ay natiyak. .
Batay sa konsepto ng sistematikong organisasyon, ang espesyal na atensyon ay binabayaran sa bokabularyo sa MP. Dahil ang diksyunaryo para sa MP ay kasabay ng isang diksyunaryo ng makina, na may mga analogue sa iba pang mga sistema ng awtomatikong pagproseso ng impormasyon sa natural na wika, nagiging posible na gumawa ng mga generalization at pag-usapan ang mga pangkalahatang katangian ng mga diksyunaryo ng makina. Ang mga pangkalahatang pag-aari na ito ay isinasaalang-alang sa pagsalungat sa mga katangian ng mga ordinaryong diksyonaryo, ngunit hindi sa isang abstract na kahulugan (kung saan ang mga naturang kontradiksyon ay maaaring mabura tulad ng pagkakaiba sa pagitan ng isang tao at isang makina ng pag-iisip ay nabura), ngunit sa mga representasyon ng engineering linguistics - inilapat na linggwistika na naglalayong lutasin ang mga teknikal na problema.
Upang malampasan ang mga pangunahing paghihirap ng problema sa pagsasalin ng makina, ang mga gawain ng awtomatikong representasyon ng konteksto, ang semantikong nilalaman ng isinalin na teksto, at kaalaman tungkol sa mga konsepto ng lugar ng paksa kung saan nabibilang ang isinalin na teksto. Ang mga unang sistema ay nagpatupad ng tinatawag na "direktang" diskarte sa pagsasalin, kung saan, tulad ng nabanggit na, ang lahat ng mga operasyon na isinagawa sa panahon ng pagsasalin ay itinuturing bilang mga operasyon ng interlingual na paglipat - ang pagbabago ng orihinal na teksto sa target na teksto. Sa pagsasalin ng makina, sa kaukulang kahulugan, ang pamamaraang ito ay humahantong sa tinatawag na "kabuuang mga estratehiya" (No. 10). Ang isang karaniwang katangian ng kabuuang mga diskarte ay ang pagnanais na makakuha ng ganap na automated na mataas na kalidad na pagsasalin ng makina sa pamamagitan ng pag-maximize sa paggamit ng antas ng semantiko ng wika. Ang diskarte na ito ay gumawa ng isang makabuluhang kontribusyon sa parehong teorya at kasanayan ng machine translation.
Ang pangalawang paraan ay sunud-sunod na lumitaw nang mas maaga kaysa sa una. Ang diskarte na ito ay nakasalalay sa konsepto ng isang intermediate na wika at malapit na nauugnay sa ideya ng mga pagsusulatan sa pagsasalin sa isang antas ng lingguwistika. Ang metodolohikal na diwa ng diskarteng ito ay: pag-aralan ang pag-uugali ng mga yunit ng wika, lalo na sa konteksto ng wika; sa pagmomodelo ng kasanayan sa wika ng tao, lalo na sa proseso ng interlingual na pagsasalin; sa paglipat mula sa simple tungo sa mas kumplikado. Maraming mga mananaliksik, tulad ng Marchuk Yu.N., Nelyubin L.L., Revzin I.I. isipin na ang software ng gramatika ay batay sa mga umiiral na teorya ng istruktura ng wika na sinamahan ng madaliang ginawang mga panuntunan.
Ang mga binuo na programa ay gumawa ng isang mahinang pagsasalin na imposibleng maunawaan ito. Ang problema ay ang kahulugan ng isang natural na teksto ng wika ay nakasalalay hindi lamang sa pangungusap mismo, kundi pati na rin sa konteksto.
Malamang, ang mga unang proyektong ito ay hindi talaga nagbunga ng anumang tunay na resulta. Gayunpaman, maraming mga pangunahing problema sa pagsasalin ng mga teksto ng natural na wika ang natukoy: polysemy ng mga salita at syntactic constructions, ang praktikal na imposibilidad ng isang pandaigdigang paglalarawan ng semantic na istraktura ng mundo kahit na sa isang limitadong lugar ng paksa, ang kakulangan ng epektibong pormal na pamamaraan para sa paglalarawan ng linguistic. pattern, atbp. (No. 8).Ang kasalukuyang estado ng MT ay nailalarawan sa pamamagitan ng isang tiyak na pagsasama ng mga resulta ng dalawang diskarte, ngunit hindi sa pamamagitan ng mekanikal na kumbinasyon ng mga resulta, ngunit sa pamamagitan ng kanilang pagsasanib sa batayan ng mga bagong modelo na nilikha na may pangunahing atensyon sa aktwal na aspeto ng pagsasalin ng likas na kasanayan sa wika. Ang sentro ng pananaliksik sa modernong MT ay ang pagmomodelo ng mga aksyon ng isang taong tagasalin, lalo na sa mga tuntunin ng paggamit ng dalawa at maraming halaga na mga sulat sa pagsasalin kapag nagsasalin mula sa isang wika patungo sa isa pa. Ang MT, na nagmula sa labas ng linggwistika, ay pumasok dito pangunahin dahil sa mahalagang aspeto ng pagmomodelo. Ang kalidad ng pagsasalin ay tinitiyak ng teknolohiya, ang multidimensional na arkitektura ng mga diksyunaryo (dalawang antas ng pagsasalin para sa bawat salita: aktibo at passive), ang mekanismo ng nauugnay na memorya, ang paglikha at pag-edit ng mga diksyunaryo ng gumagamit, pati na rin ang koneksyon na dalubhasa at pangkalahatang mga diksyunaryo ng malalaking volume. (No. 14)
Ang mabagal na pagpapabuti sa katumpakan ng pagsasalin ng makina ay bahagyang dahil sa katotohanan na ang naturang programa ay nangangailangan ng napakalaking database ng mga teksto para sa paghahambing ng mga katulad na parirala at pagbibigay kahulugan sa mga ito (No. 19).
Noong 1956, iminungkahi ng mga American psychologist na Miller at Beebe Center ang mga sumusunod na pamamaraan para sa pagtatasa ng kalidad ng isang pagsasalin:
· pagtatasa ng kalidad ng pagsasalin ng mga paksa sa isang matatag na sukat;
· pagkalkula ng porsyento ng mga salita na tumutugma sa hindi na-edit at na-edit na mga pagsasalin;
pag-aaral ng mga sagot ng isang taong nagbabasa lamang ng pagsasalin sa mga tanong na ibinibigay ng orihinal na teksto.
Ginagamit ng psychologist na si S. Pfafflin ang sumusunod na dalawang pamantayan upang suriin ang kalidad ng isang pagsasalin:
Pagtataya sa pag-unawa sa pagsasalin sa pamamagitan ng pagtatanong tungkol sa teksto;
Pagsusuri ng kalinawan ng kahulugan ng pagsasalin sa isang sukat na "malinaw", "hindi malinaw", "walang kahulugan" Wala sa mga pamamaraang ito ang nagbibigay ng malinaw na sagot sa tanong kung ano ang mga pamantayan para sa kalidad ng pagsasalin ng makina at kung ano ang ang katanggap-tanggap na antas ng kalidad. (No. 11)
KabanataII. Sistema ng pagsasalin ng makinaPROMT
2.1 Mga tampok ng machine translator ng pamilya PROMT.
Mula noong unang bahagi ng 1990s Ang mga domestic developer ay pumapasok sa merkado ng mga sistema ng PC. Noong Hulyo 1990, ang unang komersyal na sistema ng pagsasalin ng makina sa Russia na tinatawag na PROMT (Programmer's Machine Translation) ay ipinakita sa PC Forum sa Moscow. nanalo sa kompetisyon ng NASA para sa supply ng mga MP system (PROMT ang tanging non-American firm sa kompetisyong ito. .) Noong 1992, naglabas ang PROMT ng isang buong pamilya ng mga system sa ilalim ng bagong pangalang STYLUS para sa pagsasalin mula sa English, German, French, Italian at Spanish sa Russian at mula sa Russian sa English, at ang unang MT system sa mundo para sa Windows ay nilikha batay sa ng STYLUS noong 1993. Noong 1994, ang STYLUS 2.0 ay inilabas para sa, at noong 1995-1996 ang ikatlong henerasyon ng mga machine translation system, ganap na 32-bit STYLUS 3.0 para sa Windows 95/NT, kasabay ng pagbuo ng ganap na bago, mundo unang Russian-German at Russian-French MT system ay matagumpay na nakumpleto.
Noong 1997, nilagdaan ang isang kasunduan sa kumpanyang Pranses na Softissimo sa paglikha ng mga sistema ng pagsasalin mula sa Pranses sa Aleman at Ingles at sa kabaligtaran, at noong Disyembre ng taong ito, ang unang sistema ng pagsasalin ng Aleman-Pranses sa mundo ay inilabas. Sa parehong taon, ang kumpanya ng PROMT ay naglabas ng isang sistema na ipinatupad gamit ang Giant na teknolohiya - upang suportahan ang ilang mga direksyon ng wika sa isang shell, pati na rin ang isang espesyal na tagasalin para sa pagtatrabaho sa Internet WebTranSite.
Noong 1998, isang buong konstelasyon ng mga programa ang inilabas sa ilalim ng bagong pangalan na PROMT 98. Pagkalipas ng isang taon, naglabas ang PROMT ng dalawang bagong produkto: isang natatanging software package para sa pagtatrabaho sa Internet - PROMT Internet, at isang tagasalin para sa mga corporate mail system - PROMT Mail Tagasalin. Ang mga espesyal na solusyon sa server ay binuo din para sa mga kliyente ng korporasyon - ang corporate translation server na PROMT Translation Server (PTS) at ang Internet solution na PROMT Internet Translation Server (PITS). Noong 2000, na-update ng PROMT ang buong sistema sa pamamagitan ng paglabas ng bagong henerasyon ng mga MT system: PROMT Translation Office 2000, PROMT Internet 2000 at Magic Gooddy 2000.
Nakabatay ang lahat ng produkto ng PROMT sa isang core ng pagsasalin - isang sistema para sa pagsusuri ng input text at pag-synthesize ng magkakaugnay na pagsasalin sa output; ipinapatupad din nila ang mga pangkalahatang prinsipyo ng automation ng pagsasalin. Binibigyang-daan ka ng linguistic editor na PROMT na magsalin ng mga dokumento, i-customize ang paksa ng dokumento at pinapayagan kang i-edit ang teksto. Ang programa ay nagbibigay ng mabilis na pagsasalin, na sumusuporta sa halos lahat ng mga text editor. Ang laki ng isinalin na teksto ay limitado lamang ng mga mapagkukunan ng computer mismo.
Maaaring gamitin ang tagasalin sa dalawang mode: nang walang mga setting para sa mabilisang pagsasalin ng draft (ang pangunahing diksyunaryo lamang ang kasama) at may mga karagdagang setting (koneksyon ng mga karagdagang pampakay na diksyunaryo) upang magbigay ng mas mahusay na pagsasalin. Kasama sa programa ang higit sa 100 dalubhasang mga diksyunaryo, na ginagawang posible na gawing mas tumpak ang pagsasalin, ngunit kahit na ang isang malaking bilang ng mga dalubhasang diksyunaryo ay hindi maaaring palitan ang diksyunaryo ng gumagamit.
Ang isang natatanging teknolohiyang ipinatupad sa mga pinakabagong bersyon ng PROMT ay ang mekanismo ng associative memory (AM). Ang katotohanan ay maraming mga dokumento ang naglalaman ng mga madalas na nagaganap na magkatulad na mga pagliko at kahit na mga fragment ng teksto na lohikal na isalin nang isang beses at pagkatapos ay ilapat ang natapos na pagsasalin. Ang mga segment ng orihinal at isinalin na mga teksto ay iniimbak sa database ng pagsasalin ng TA, na ginagamit kapag kinakailangan upang isalin ang isang katulad na fragment ng teksto. Nagbibigay ito ng kakayahang sanayin ang system at i-save ang mga resulta ng trabaho ng user para magamit sa ibang pagkakataon.
Ang isang kapaki-pakinabang na tampok ng pinakabagong henerasyon ng mga programa ay ang kakayahang ibukod ang mga wastong pangalan mula sa proseso ng pagsasalin na may posibilidad ng kanilang transliterasyon. Ang isa pang paraan upang i-customize ay ang pumili ng mga linguistic algorithm. Ang bawat direksyon ng pagsasalin ay may sariling listahan ng mga algorithm na maaaring i-configure ng user. (No. 8.5)
Ang PROMT XT system ay nagbibigay ng pagsasalin sa mga sumusunod na lugar: English-Spanish, English-German, English-Russian, English-French, Spanish-English, Spanish-Russian, Spanish-French, Italian-Russian, German-English, German-Russian , German -French, Russian-English, Russian-German, Russian-French, French-English, French-Spanish, French-German, French-Russian. Wika ng interface ng system: English, Russian, French, German.
Nagbibigay ang system ng mga sumusunod na karagdagang tampok:
o pag-edit ng mga entry sa diksyunaryo sa mga pasadyang diksyunaryo (maliban sa ilang espesyal na salita: pang-ukol, pang-ugnay, panghalip, ilang homonymous na anyo);
o pagtukoy sa hierarchy ng mga konektadong diksyunaryo (kung mayroong ilang mga opsyon sa pagsasalin, pipili ang system ng pagsasalin mula sa diksyunaryo, ang priyoridad kung saan ay tinukoy ng gumagamit bilang pinakamataas);
o maghanap ng mga pagsasalin sa mga electronic na diksyunaryo (para lamang sa English-Russian at Russian-English na direksyon);
o awtomatikong pagtuklas ng mga paksa ng teksto (sa pamamagitan ng mga keyword) at koneksyon ng mga espesyal na diksyunaryo;
o pag-install ng mga algorithm ng pagsasalin para sa ilang mga construction (halimbawa, pagsasalin ng English you bilang "you", "you" o "you";
o pagsasama ng mga preprocessor (nagbibigay-daan sa hindi pagsasalin ng ilang espesyal na elemento, tulad ng mga filename, e-mail address at web page);
o kahulugan ng mga nakalaan na salita (halimbawa, mga termino, tamang pangalan) na hindi isasalin ng programa
o paggamit ng mga database ng pagsasalin ng Associative Memory (isang pinasimpleng bersyon ng teknolohiya ng Translation Memory).
Ang pinakabagong pag-unlad ng kumpanya ng PROMT, isang elektronikong tagasalin Opisina ng PROMTXT ay ang unang produkto na nagpatupad ng bagong konsepto ng awtomatikong pagsasalin batay sa teknolohiyang Associated Memory. Ang isang bagong antas ng linguistic algorithm ay nagbibigay ng pinahusay na kalidad ng pagsasalin para sa hindi bababa sa 55% ng mga pangungusap.
Ang PROMT XT Office ay nilulutas ang mga sumusunod na gawain:
· Pagsasalin ng mga dokumento sa mga sumusunod na format: DOC, RTF, TXT, HTML. Sa unang pagkakataon, ipinatupad ang kakayahang magsalin ng mga dokumento sa format na Adobe Acrobat.
· Ang komportableng pagtatrabaho sa mga dokumento sa wikang banyaga sa Microsoft Word, Excel, PowerPoint na mga aplikasyon ay sinisiguro sa pamamagitan ng pagsasama ng programa sa MS Office 2000/XP at Microsoft Office System 2003 na mga aplikasyon.
· Pagsasalin sa email.
· Online na pagsasalin ng mga Web site na napanatili ang pag-format. (No. 9)
Direksyon ng pagsasalin: English<->Aleman na Ruso<->Ruso, Pranses<->Ruso, Espanyol<->russian, italian -> russian, Giant (engl.<->Ruso, Aleman<->Ruso, Pranses<->Russian)
Mga pangunahing tampok ng sistema ng pagsasalin:
· Pagsasalin ng mga dokumento ng mga pangunahing format: DOC, RTF, HTML, TXT.
· Panatilihin ang pag-format kapag nagsasalin.
· Sine-save ang resulta ng pagsasalin sa mga file ng format: RTF at TXT.
· Direktang magsalin ng mga PDF na dokumento sa Adobe Acrobat 4.x/5.x at Adobe Acrobat Reader 4.x/5.x.
· Pagsasama-sama ng mga function ng pagsasalin sa lahat ng mga pangunahing aplikasyon ng Microsoft Office 2000/XP (Word, Excel, PowerPoint, FrontPage) at Microsoft Office System 2003*.
· Pagsasalin sa email. Awtomatikong pagsasalin ng email sa Microsoft Outlook. Pagruruta ng mga email sa pamamagitan ng mga folder.
o Lahat para sa InternetOnline na pagsasalin ng mga Web site na napanatili ang pag-format.
o Pagsasalin ng mga kahilingan para sa mga search engine at pagpapadala sa tinukoy na server.
o Mga setting ng pagsasalin batay sa teknolohiya ng SmartURL - naaalala mismo ng program ang mga setting ng pagsasalin ng pahina. Kapag binisita mong muli ang pahina, maibabalik ang mga setting ng pagsasalin.
o Paglikha ng mga site sa isang wikang banyaga sa FrontPage gamit ang pinagsama-samang mga module ng pagsasalin.
· Pagsasalin ng mga nilalaman ng Windows Clipboard buffer.
· Matalinong self-learning algorithm ng system kapag gumagamit ng Associated Memory. Associated Memory (AP) - gumagana sa prinsipyo ng akumulasyon: sa proseso ng pagsasalin, ang orihinal na segment (pangungusap o bahagi nito) at ang pagsasalin nito ay nai-save. Kapag kumokonekta sa AP database, inihahambing ng system ang bawat alok sa mga segment na nakaimbak sa database. Kung may nakitang segment na kapareho ng orihinal, maaari itong gamitin para sa pagsasalin.
· Napakahusay na linguistic editor PROMT, na nagbibigay ng posibilidad ng interactive na pamamahala ng pagsasalin.
o Maginhawang mga tool sa pag-edit ng pagsasalin - kasabay na "pag-scroll" ng orihinal at pagsasalin nito. Pag-highlight ng kulay ng mga kaugnay na fragment sa orihinal at pagsasalin.
o Instant na pagsasalin ng anumang salita kapag ginagalaw ang cursor ng mouse. Tingnan ang lahat ng pagsasalin at anyo ng salita ng napiling salita.
o Mga matalinong algorithm para sa awtomatikong pagtuklas ng wika at paksa ng teksto.
o Pag-save ng mga pagpipilian sa pagsasalin sa mga template ng tema.
Pagpapabuti ng kalidad ng pagsasalin dahil sa mga personal na setting:
o Kakayahang magkonekta ng mga dalubhasang diksyunaryo na ginawa ng PROMT para sa iba't ibang paksa;
o Paglikha at muling pagdadagdag ng iyong sariling mga diksyunaryo ng gumagamit.
o Gumawa ng listahan ng mga nakalaan na salita. Pagpapareserba ng mga salita na may tinukoy na format, tulad ng mga nasa italics. Pagpapareserba ng mga napiling fragment ng teksto.
o Pagtatakda ng mga palatandaan ng transliterasyon ng mga hindi pamilyar na salita.
o Pagpili ng mga algorithm ng pagsasalin (mga mode ng pagsasalin ng ilang mga construct ng wika na hindi makokontrol sa pamamagitan ng pagbabago ng data ng diksyunaryo).
o Pagkonekta ng mga macro para sa pagproseso ng source text at translation text.
o Paggamit ng Associated Memory (AM) na mga base.
· Isang epektibong tool para sa pag-customize ng mga diksyunaryo - Dictionary Editor:
o Kakayahang tingnan, i-edit, kopyahin, tanggalin at ibalik ang mga entry sa diksyunaryo mula sa mga diksyunaryo ng gumagamit.
o Iba't ibang mga mode ng pag-access sa mga nilalaman ng mga entry sa diksyunaryo - "Beginner" at "Specialist".
o Mga algorithm sa pagdaragdag ng matalinong diksyunaryo.
o Sabay-sabay na muling pagdadagdag ng mga kaugnay na diksyunaryo sa dalawang direksyon.
o Kakayahang ipasok ang diksyunaryo mula sa isang text file at i-export ang mga entry sa diksyunaryo sa isang text file o RTF na dokumento.
· Isang malaking elektronikong diksyunaryo para sa pagsasalin ng mga indibidwal na salita (ipinatupad para sa English-Russian, Russian-English, French-Russian, Russian-French, German-Russian at Russian-German na mga direksyon sa pagsasalin).
· Suporta para sa mga panlabas na programa sa pag-scan, mga spell checker at mga electronic na diksyunaryo.
· Text-to-speech kung mayroon kang naka-install na text-to-speech (TTS) compliant speech synthesis sa iyong computer. (No. 22,23)
Ang mga produkto ng software ng PROMT ay nakatanggap ng ilang mga parangal sa loob at labas ng bansa at sila ang pinakamahusay na mga programa para sa pagsasalin ng makina sa ating bansa.
2.2 Pahambing na pagsusuri ng mga pagsasalin ng tekstong pampanitikan at pampulitika na ginawa ng sistema ng pagsasalin ng makina at ng tao.
Upang mas mahusay na maunawaan ang mga prinsipyo ng MT system, mga pamamaraan ng paggamit ng mga diksyunaryo, pagsusuri ng gramatika at synthesizing na mga istruktura sa output na wika, kinakailangan na magsagawa ng ilang mga eksperimento sa pagsasanay at magsalin ng mga teksto (mas mainam na naiiba sa estilo at paksa) gamit ang isa sa makina mga sistema ng pagsasalin.
Upang ihambing ang pagsasalin ng isang tekstong pampanitikan, ang PROMT XT machine translation system ay gagamitin. Isasalin din ang tekstong ito at isasagawa ang paghahambing na pagsusuri ng mga resulta.
Magsimula tayo sa isang sipi mula sa fairy tale na "The Little Prince" sa English:
"Umalis ang munting prinsipe, upang tingnan muli ang mga rosas.
"Hindi ka talaga katulad ng rosas ko," sabi niya. “Hanggang ngayon wala ka pa. Walang nagpaamoikaw, at hindi mo pinaamo ang sinuman. At ang mga rosas ay labis na napahiya.
"Maganda ka, ngunit wala kang laman," patuloy niya. "Hindi maaaring mamatay ang isa para sa iyo. Ang magingSigurado, aakalain ng isang ordinaryong dumadaan na ang rosas ko ay kamukha mo - ang rosas na pag-aari ko. Ngunit sa kanyang sarili lamang siya ay mas mahalaga kaysa sa lahat ng daan-daang iba pang mga rosas. At bumalik siya upang salubungin ang soro. "Paalam," sabi ng soro. "At ngayon, narito ang aking lihim, isang napakasimpleng sikreto: Sa puso lamang nakakakita ng tama; ang mahalaga ay hindi nakikita ng mata."
"Ang mahalaga ay hindi nakikita ng mata," ulit ng maliit na prinsipe, upang gawin niyasiguraduhing tandaan.
"Ito ang oras na nasayang mo para sa iyong rosas na nagpapahalaga sa iyong rosas."
"Ito na ang oras na nasayang ko para sa aking rosas..." sabi ng maliit na prinsipe, upang siya ay magingsiguradong maaalala.
"Nakalimutan ng mga tao ang katotohanang ito," sabi ng fox. "Ngunit hindi mo dapat kalimutan ito. Ikaw ay nagingresponsable, magpakailanman, para sa iyong pinaamo. Ikaw ang may pananagutan sa iyong rosas..."
"Ako ang may pananagutan sa aking rosas," ulit ng munting prinsipe, para makasigurado siyaTandaan."(№ 16)
Narito ang salin ng tagasalin ng talatang ito:
Pumunta ang munting prinsipe para tingnan ang mga rosas.
Hindi ka katulad ng rosas ko, sabi niya sa kanila. - Wala ka. Walang nagpaamo sa iyo, at hindi mo pinaamo ang sinuman. At ang mga rosas ay lubhang nalilito.
Ikaw ay maganda, ngunit walang laman, - patuloy ng Munting Prinsipe. - Walang gustong mamatay para sa iyo. Siyempre, ang isang random na dumadaan, na tumitingin sa aking rosas, ay sasabihin na ito ay eksaktong kapareho mo. Pero siya lang ang mas mahal ko kaysa sa inyong lahat
At bumalik ang Munting Prinsipe sa Fox.
Paalam... - sabi niya.
Paalam, sabi ng Fox. - Narito ang aking lihim, ito ay napakasimple: ang puso lamang ang mapagbantay. Hindi mo makikita ang pinakamahalagang bagay sa iyong mga mata.
- Siya mismo Hindi mo makikita ang pangunahing bagay sa iyong mga mata, "uulit ng Munting Prinsipe, upang mas maalala.
Mahal na mahal mo ang iyong rosas dahil binigay mo ito sa lahat ng iyong mga araw.
Dahil ibinigay ko sa kanya ang lahat ng aking mga araw ... - paulit-ulit ang Little Prince, upang mas matandaan.
Nakalimutan na ng mga tao ang katotohanang ito, - sabi ng Fox, - ngunit huwag kalimutan: ikaw ay walang hanggang pananagutan sa lahat ng iyong pinaamo. Pananagutan mo ang iyong rosas.
Ako ay may pananagutan para sa aking rosas ... - paulit-ulit ang Little Prince, upang mas mahusay na matandaan.
Sa ilang mga pangungusap, kailangan naming baguhin ang pagkakasunud-sunod ng salita. Maraming mga salita ang "tinapon" mula sa pagsasalin, dahil ang kanilang kawalan o presensya ay hindi nakakaapekto sa kahulugan at istilo ng pagsasalin. Ngunit sa parehong oras, maaari itong "magputol ng tainga" dahil "sa Russian" ay hindi sila nagsasalita ng ganoon. At narito kung paano ginawa ang pagsasalin ng parehong sipi ng PROMT XT system.
“Wala na ang munting prinsipe, tingnan mo ulit ang mga rosas.
"Hindi ka talaga katulad ng rosas ko," sabi niya. "Sa ngayon ay wala ka pa. Walang nagpaamo sa iyo, at hindi mo pa pinaamo ang sinuman..."
At ang mga rosas ay labis na nag-aalala. "Maganda ka, pero wala kang laman," patuloy niya. "Hindi maaaring mamatay ang isa para sa iyo. Tiyak, iisipin ng isang ordinaryong dumadaan na ang rosas ko ay kamukha mo, na pag-aari ko. Ngunit sa sarili lang niya ay mas mahalaga siya kaysa sa lahat ng daan-daang iba mong rosas. ...
"At bumalik siya upang salubungin ang soro.
"Paalam," sabi ng soro. "At ngayon, narito ang aking lihim, isang napakasimpleng lihim: tanging sa puso lamang ang isang tao ay nakakakita ng patas; ang mahalaga ay hindi nakikita ng mata."
"What is essential is invisible to the eye," ulit ng munting prinsipe, para masiguradong maaalala niya
"Ito ang oras na nasayang mo para sa iyong rosas na nagpapahalaga sa iyong rosas."
"Panahon na ang nasayang ko para sa aking rosas..." sabi ng munting prinsipe, para siguradong maalala niya.
"Nakalimutan ng mga tao ang katotohanang ito," sabi ng fox. "Ngunit hindi mo dapat kalimutan ito. Nagiging responsable ka, magpakailanman, para sa kung ano ang iyong pinaamo.
Ikaw ang may pananagutan sa iyong rosas..."
"Ako ang may pananagutan sa aking rosas," ulit ng munting prinsipe, para sigurado siyang naaalala niya.
Tulad ng nakikita natin, ang pagsasalin ng teksto ay salita sa salita. Ang programa ay hindi maaaring magpalit ng mga salita sa mga pangungusap, iyon ay, sa output na wika, ang pagkakasunud-sunod ng salita ay halos palaging pareho sa input. Ang pagsasalin ng salitang "rosas" ay kapansin-pansin din, sumasang-ayon ako, ang salitang "rosas" ay napaka-ambiguous. Ngunit kahit na ang diksyunaryo ay nagbibigay ng unang kahulugan kapag isinasalin ang salitang "rosas", habang ang sistema ay hindi man lang nag-aalok nito bilang isang opsyon. Ngunit sa parehong oras, isinalin ng system ang salitang "rosas", sa pangmaramihang "rosas", nang tama (hindi isinasaalang-alang na "rosas" - n, pl, AmE, sl "Gumagamit siya ng mga rosas - Tinamaan niya ang parmasya" ). Malinaw, sa kontekstong ito, ang salita ay dapat isalin bilang "rosas", ngunit hindi masuri ng system ang konteksto at samakatuwid ay hindi maaaring piliin nang tama ang katumbas. Nalilito ang mga salitang "Ikaw" na isinulat ng malaking titik, malinaw naman sa mga setting para sa user na ito ang salitang "ikaw" ay dapat isalin bilang "Ikaw" na may malaking titik. Hindi bilang "ikaw" o "ikaw". Ngunit sa bersyon na ito ng programa, ito ay madaling ayusin, baguhin lamang ang mga setting para sa kasalukuyang gumagamit. Ang salitang "look" ay isinalin bilang "look", hindi isinasaalang-alang na maaari din itong isalin bilang "look", na mas mainam sa kasong ito. Ang pananalitang "sa sarili niyang nag-iisa" ay isinalin bilang "sa sarili niyang nag-iisa." Naturally, alam ng lahat na ang mga pangngalang Ingles ay nawala ang gramatika na kategorya ng kasarian. Samakatuwid, lahat sila ay sumasang-ayon sa panghalip 3rd person isahan "ito" - neuter. Sa Russian, ang kategorya ng kasarian ay naroroon sa mga pangngalan. Ang pagtanggal ng sistema ay ang imposibilidad ng kasunduan ng kasarian sa target na wika. Ang mga salitang "rosas" sa Russian ay pambabae. Ang mga salitang ibinigay sa panaklong ay ang mga pagpipilian sa pagsasalin ng salita (pangalawang kahulugan) na iniiwan ng system sa pagpili ng editor ng tagasalin. Ang salitang "tama" ay isinalin sa unang kahulugan, nang walang karagdagang mga pagpipilian. Ito ay pareho sa salitang "mahahalaga". Ang salitang "nasayang" na hindi ibinigay sa paunang anyo ay isinalin ng ABBY Lingvo electronic dictionary bilang: "nasayang" adj. - naubos; payat, payat; bansot; maputla; sa parehong teksto dapat itong isalin bilang "ginastos", "nagbigay".
Sa yugtong ito ng gawain, ipinapayong ihambing ang mga pagsasalin na ginawa mula sa Ingles sa mga pagsasalin mula sa Pranses (orihinal na wika) upang malinaw na matukoy kung ang parehong mga problema ay umiiral sa gramatika at bokabularyo kapag nagsasalin mula sa Pranses.
Le petit prince s "en fut revoir les roses:
"Vous n" êtes pas du tout sembables à ma rose, vous n "êtes rien encore, leur dit-il. Personne ne vous a apprivoisées et vous n "avez apprivoisé personne."
Et les roses étaient bien gênées.
"Vous êtes belles, mais vous êtes vides, leur dit-il encore. On ne peut pas mourir pour vous. Bien sûr, ma rose à moi, un passant ordinaire croirait qu "elle vous ressemble. Mais à elle seule elle est plus importante que vous toutes
At il revint vers le renard:
"Paalam, dit-il...
Adieu, dit le renard. Voici mon secret. Ito ay simple: on ne voit bien qu "avec le cœur. L" essentiel est invisible pour les yeux.
L" mahalaga est invisible pour les yeux, repeta le petit prince, afin de se souvenir.
C "est le temps que tu as perdu pour ta rose qui fait ta rosé si importante.
C "est le temps que j" ai perdu pour ma rose..., fit le petit prince, afin de se souvenir.
Les hommes ont oublié cette vérité, dit le renard. Mais tu ne dois pas l "oublier. Tu deviens responsable pour toujours de ce que tu as apprivoisé. Tu es responsable de ta rose...
Je suis responsable de ma rose...”, repeta le petit prince, afin de se souvenir. (No. 5)
Pagsasalin na ginawa ng tagasalin:
“Nagpunta ang munting prinsipe para tingnan ang mga rosas.
Hindi ka katulad ng rosas ko, sabi niya sa kanila. - Wala ka. Walang nagpaamo sa iyo, at hindi mo pinaamo ang sinuman.
At ang mga rosas ay lubhang nalilito.
Maganda ka, pero walang laman, sabi niya sa wakas. Walang gustong mamatay para sa iyo. Siyempre, ang isang random na dumadaan, na tumitingin sa aking rosas, ay sasabihin na ito ay eksaktong kapareho mo. Ngunit siya lamang ang mas mahal at mas mahalaga sa akin kaysa sa inyong lahat.
At bumalik ang Munting Prinsipe sa Fox.
Paalam... - sabi niya.
Paalam, sabi ng Fox. - Narito ang aking sikreto, ito ay napakasimple: makikita mo lamang ng iyong puso. Ang pinakamahalagang bagay ay hindi nakikita ng mata.
Ang pinakamahalagang bagay ay hindi nakikita ng mata, - ulit ng Munting Prinsipe, upang mas matandaan.
Ang katotohanan na binigay mo ang iyong rosas ng napakaraming oras ay ginagawa itong espesyal.
Dahil binigyan ko siya ng napakaraming oras…” Ulit ng munting prinsipe, para mas maalala.
Nakalimutan ng mga tao ang katotohanang ito, - sabi ng Fox, - ngunit huwag kalimutan: ikaw ay walang hanggang pananagutan para sa lahat ng iyong pinaamo. Pananagutan mo ang iyong rosas.
Ako ay may pananagutan para sa aking rosas ... - paulit-ulit ang Little Prince, upang mas matandaan.
Pagsasalin na ginawa ng sistema ng PROMT mula sa Pranses patungo sa Ruso:
Ang munting prinsipe ay muling makakita ng mga rosas:
“Hindi ka katulad ng rosas ko, wala ka nang iba, sabi niya sa kanila. Walang nagpaamo sa iyo at wala kang pinaamo.
"At ang mga rosas ay napakahiya.
"Maganda ka, pero wala kang laman, sinasabi pa niya sa kanila. We cannot die for you. Syempre, my rose, isang ordinaryong dumadaan ang mag-iisip na kamukha mo siya. Pero siya lang ang mas mahalaga sa kanya na ikaw. Ay lahat
At bumalik siya sa soro:
"Paalam, sabi niya
Paalam, sabi ng soro. Narito ang aking sikreto. Ito ay napaka-simple: nakikita lamang natin nang maayos ang c at * 339; ur. Ang isang makabuluhang bahagi ay hindi nakikita ng mata.
Ang mahalagang bahagi ay hindi nakikita ng mata, paulit-ulit ang maliit na prinsipe, upang matandaan.
Ito ang oras na nawala sa iyo para sa iyong rosas na nagpapahalaga sa iyong rosas.
Ito ang oras na nawala ako para sa aking rosas, ginawa ang maliit na prinsipe, para sa pag-alala.
Nakalimutan na ng mga tao ang katotohanang ito, sabi ng fox. Pero hindi mo siya dapat kalimutan. Magiging responsable ka magpakailanman para sa iyong pinaamo.
Pananagutan mo ang iyong rosas - pananagutan ko ang aking rosas," ulit ng munting prinsipe, upang maalala.
Sa pangkalahatan, ang pagsasalin ay medyo tama, ang pangkalahatang kahulugan ng sipi ay malinaw. Ang pagsasalin ay ginawa rin salita sa salita, na nagpapatunay sa amin na ang sistema ay hindi maaaring baguhin ang pagkakasunud-sunod ng mga salita sa target na wika. Hindi nagawang isalin ng system ang 2 salita, na-transliter nito ang isa sa mga ito, at pinalitan ang isa ng digital code dahil sa katotohanan na ang expression na “que avec le coeur” ay nakasulat bilang “qu`avec le coeur”. Ang patinig na "e" ay palaging ibinabagsak sa mga ganitong pagkakataon, at pinuputol sa pagsulat. Pati na rin kapag nagsasalin mula sa English, ang mga hindi pagkakapare-pareho ng kasarian ay makikita sa output (Russian) na wika. Bagaman ang sistema ay isinulat ng mga espesyalista na nagsasalita ng Ruso. Ang pagsasalin ng ilang mga pangungusap ay nagpapaisip na ito ay isinalin ng isang taong nagsasalita ng maliit na Ruso. Ang problema ay wala sa synthesis ng grammatical structure ng output language, ngunit sa hindi pagkakaunawaan ng structure ng input language, iyon ay, sa katunayan, sa grammatical analysis. Sa prinsipyo, ang sistema ay nagsasalin ng mga simpleng pangungusap na medyo tama, kumplikado, kumplikado - binubuo o kumplikado - ang mga subordinate na pangungusap ay medyo madaling isinalin. Ngunit kung ang isang pambungad o pagpapaliwanag na pagtatayo ay nakatagpo at ang pangunahing pangungusap ay nasira, pagkatapos ang programa ay magsisimula ng isang salita-sa-salitang pagsasalin, nang hindi isinasaalang-alang ang syntax, sinusubukang ikonekta lamang ang mga salita. Kaya, ang pagpipilian sa output ay napaka-kumplikado at nakakalito. Ngunit kahit na sumulat ka ng mga algorithm para sa lahat ng mga panuntunang ito, nang hindi nauunawaan ang input text, kung minsan ay mananatiling ganap na hindi magkakaugnay ang pagsasalin.
Konklusyon.
Maaari itong tapusin na ang ganap na awtomatikong pagsasalin ng makina ay isang napakahirap na gawain na lutasin hindi lamang ng mga linguist, kundi pati na rin ng mga programmer, mga espesyalista sa cybernetics at marami pang ibang kinatawan ng mga agham na apektado ng problemang ito. Napakahirap imodelo ang mismong proseso ng pagsasalin gamit ang isang computer program. Kung ang isang tao, habang nagsasalin, ay nag-iisip sa mga imahe at nagpapatuloy mula sa kung anong pag-iisip ang dapat na ihatid sa huli sa nakikinig, kung gayon imposibleng ituro ang program na ito (sa yugtong ito sa pagbuo ng teknolohiya ng computer.
Ang mga makabagong programa sa pagsasalin ng makina ay napakalayo sa ideyal na sinisikap ng kanilang pag-unlad. Ngunit walang alinlangan na magsisilbi silang mabuting tulong sa tagapagsalin sa kanyang nakagawiang gawain. Hindi bababa sa katotohanan na walang mga problema maaari silang gumawa ng interlinear na pagsasalin ng anumang teksto sa mga tuntunin ng pagiging kumplikado at dami sa loob ng ilang segundo. Kung, sa parehong oras, ang pamamahagi ng mga priyoridad na diksyunaryo para sa isang partikular na paksa at direksyon ng pagsasalin ay wastong na-configure, pagkatapos ay sa output, ang editoryal na pag-edit ay kinakailangang maging minimal (kumpara sa pagsasalin na may konektadong diksyunaryo ng pangkalahatang bokabularyo). Naturally, imposibleng ganap na ibigay ang teksto sa mga kamay ng makina. Maaaring "tandaan" ng mga bagong henerasyong sistema ang mga konstruksyon na naisalin nang isang beses at pagkatapos ay hindi na nangangailangan ng muling pagsasalin ng mga ito. Epektibo ang mga system sa pagtulong sa mga user dahil posible ring lumikha ng "custom" na diksyunaryo, na lubos na nagpapadali sa pagsasalin sa isang partikular na paksa.
Ngunit gayon pa man, ang mga disadvantages ng mga sistema ng pagsasalin ng makina, sa aking opinyon, ay higit pa sa mga pakinabang. Ang pangunahing sagabal ay, siyempre, ang diksyunaryo. Ang programa ay hindi isinasaalang-alang ang mga pangunahing kahulugan ng mga salita at hindi nag-aalok ng mga ito bilang isang opsyon kapag nagsasalin. Kaya, pinipilit nito ang gumagamit na hanapin ang mga form ng salita na ito sa diksyunaryo, na tumama sa isa sa mga pangunahing bentahe ng system, ayon sa mga tagagawa, - bilis. Mga kakulangan sa gramatika. Ang mga pagkukulang na ito ay maaaring masubaybayan kapwa sa pagsusuri ng input language at sa synthesis sa output na wika. Ang mga tampok na gramatika ng mga wika ng input at output, tulad ng, halimbawa, ang kasarian ng mga pangngalan sa Russian at ang kawalan nito sa Ingles, ay hindi isinasaalang-alang. Ang system, bilang panuntunan, ay nagsasagawa rin ng syntactic analysis sa input, ngunit kung ang pangungusap ay hindi magkasya sa algorithm na tinukoy ng programa, ang system ay magsisimula ng word-for-word na pagsasalin nang hindi binibigyang pansin ang mga syntactic na link.
Matapos isaalang-alang ang problemang ito, napagpasyahan ko na ang pagsasalin ng makina ay, sa prinsipyo, posible, ngunit dapat itong isaalang-alang lamang bilang isang "draft" na bersyon ng pagsasalin, na napapailalim sa ipinag-uutos na pag-edit.
Bibliograpiya
Mga mapagkukunan ng panitikan sa Russian
1. Arapov M.V. Shreider Yu.A. Semantics at machine translation. M., 1965. No. 1
2. Barkhudarov L.S. Wika at pagsasalin. - M.: Int. relasyon, 1975.
3. Belonogov G.G. Zelenkov Yu.G. Interactive na sistema ng pagsasalin ng makina ng Russian-English at English-Russian, VINITI, 1993
4. Bulletin ng Moscow University. Ser.19 Linguistics at intercultural na komunikasyon. 2004. Blg. 4, p.51.
5. Computer sa bahay - 2004., No. 12
6. Kanichev M. Artikulo. // PC mundo. - 1998, No. 8.
7. Komissarov V.N. "Modern Translation Studies", ETS, M. 2004.p.411.
8. Computer Press. - 2004. No. 7
9. Computer Press. – 2004. -№11
10. Lyudskanov A. Selective na diskarte sa machine translation. - Sa: International Seminar on Machine Translation. M., VCP, 1975
11. Marchuk Yu. N. Mga problema sa pagsasalin ng makina. Moscow: Nauka, 1983
12. Mga materyales sa pagsasalin ng makina. Isyu. 1. L., 1958. p.5.
13. Pagsasalin sa makina. Koleksyon ng mga artikulo, isinalin mula sa English, M., 1957
14. PC mundo. - 2004. - No. 9
15. Mundo ng Internet. - 2001. No. 2, p. 16-26.
16. Minyar - Beloruchev A.P., Ingles. Aklat sa interpretasyon. M., "Pagsusulit", 2004
17. Panov D.Yu., Awtomatikong pagsasalin, M., 1958
18. Revzin. I., V.Yu. Rosenzweig. Mga Batayan ng Pangkalahatan at Pagsasalin sa Makina., 1964.
19. Teknik - kabataan. - 2005. No. 2.
20. Chalyapina Z.M. "Awtomatikong pagsasalin: ebolusyon at modernong uso" na mga tanong ng linggwistika, 1996, No. 2
Mga mapagkukunan ng panitikan sa mga wikang banyaga
2. Dezso L., Papp F. Mekanisasyon ng gawaing leksikograpikal at baligtad na mga diksyunaryo. – Sa: Computational linguistics, III, pp. 212 - 215
3. Antoine de Saint - Exupery. Le petit prince.,M.,Jupiter-inter, 2003
4. Visson L., From Russian into English, Ardis, 1991
Mga mapagkukunang elektroniko
5. Elektronikong diksyunaryo ABBY LINGVO 9.0
Kung interesado ka sa tulong sa EKSAKTO SA PAGSULAT NG IYONG TRABAHO, ayon sa mga indibidwal na kinakailangan - posible na mag-order ng tulong sa pagbuo ng iniharap na paksa - Pagsasalin sa makina PROMT machine translation system ... o katulad. Ang aming mga serbisyo ay sasakupin na ng mga libreng rebisyon at suporta hanggang sa pagtatanggol sa unibersidad. At hindi sinasabi na ang iyong gawa ay susuriin para sa plagiarism nang walang kabiguan at garantisadong hindi mai-publish nang maaga. Para mag-order o tantiyahin ang halaga ng indibidwal na trabaho, pumunta sa
Upang magsimula, dapat markahan ang ilang mahahalagang petsa sa kasaysayan ng pagsasalin ng makina:
1947 - petsa ng kapanganakan ng machine translation bilang isang siyentipikong direksyon. Si Warren Weaver, direktor ng Natural Sciences Division ng Rockefeller Foundation, ay nagsulat ng isang liham kay Norbert Wiener kung saan itinuturing niya ang gawain ng pagsasalin ng mga teksto mula sa isang wika patungo sa isa pa bilang isa pang lugar ng aplikasyon para sa pamamaraan ng pag-decipher. Ang liham na ito ay sinundan ng maraming talakayan. 1947 - Gumawa sina A. Booth at D. Britten ng isang detalyadong "code" para sa word-by-word machine translation. 1948 - Nagmungkahi si R. Richens ng mga panuntunan para sa paghahati ng mga anyo ng salita sa isang stem at isang pagtatapos. 1952 - Unang kumperensya sa pagsasalin ng makina sa Massachusetts Institute of Technology. 1954 - ang unang sistema ng pagsasalin ng makina ay ipinakilala - IBM Mark II - Ruso-Ingles, ay mayroong diksyunaryo ng 250 mga yunit at 6 na mga panuntunan sa gramatika. Ang sumunod na dekada ay isang panahon ng mabilis na pag-unlad sa pagsasalin ng makina. 1967 - Ang Komisyon ng National Academy of Sciences na espesyal na nilikha sa USA, batay sa totoong sitwasyon sa mga pagsasalin sa USA at ang mga tagapagpahiwatig ng gastos ng iba't ibang paraan ng pagsasalin, ay dumating sa konklusyon na ang pagsasalin ng makina ay hindi kumikita. Ang ulat ay makabuluhang nagpabagal sa pag-unlad ng MT sa kabuuan. 70s - isang bagong pagtaas sa trabaho sa larangan ng MP. Sa pag-unlad ng teknolohiya ng computer, lumitaw ang mga bagong posibilidad para sa pagpapatupad ng makina ng mga linguistic algorithm. 80s - ang oras ng pagpapatakbo ng mga personal na computer ay naging mas mura, ang pagsasalin ng makina sa wakas ay naging matipid. 90s - mayroong isa pang pagtaas ng interes sa pagsasalin ng makina, na nauugnay sa paglitaw at mabilis na pag-unlad ng Internet. Nagbibigay-daan sa iyo ang mga kakayahan sa pagsasalin sa online na malampasan ang hadlang sa wika at mag-navigate sa mga banyagang site.
Ngayon tingnan natin ang mga katotohanang ito nang mas detalyado:
Kaya, sa unang pagkakataon ang ideya ng posibilidad ng pagsasalin ng makina ay ipinahayag ni Charles Babbage (1791-1871), na binuo noong 1836-1848. proyekto ng isang digital analytical machine - isang mekanikal na prototype ng mga elektronikong digital na computer na lumitaw pagkalipas ng 100 taon. Ang ideya ni Charles Babbage ay ang isang memorya ng 1000 50-bit na mga decimal na numero (50 gear sa bawat rehistro) ay maaaring gamitin upang mag-imbak ng mga diksyunaryo. Binanggit ni C. Babbage ang ideyang ito bilang katwiran sa paghiling mula sa gobyerno ng Britanya ng mga pondong kailangan para sa pisikal na sagisag ng analytical engine, na hindi niya kailanman nagawang itayo (tingnan ang Apokin et al. Charles Babbage. M., Nauka, 1981).
Ang ideya na gumamit ng mga computer para sa pagsasalin ay ipinahayag noong 1946, kaagad pagkatapos ng paglitaw ng mga unang computer. Ang petsa ng kapanganakan ng MT bilang isang larangan ng pag-aaral ay karaniwang itinuturing na 1947: nagsimula ang lahat sa isang liham mula kay Warren Weaver, direktor ng departamento ng natural na agham ng Rockefeller Foundation, kay Norbert Wiener noong Marso ng taong iyon, kung saan ang ang gawain ng pagsasalin ay inihambing sa gawain ng pag-decipher ng mga teksto. Ang huli sa oras na iyon ay nagsimula nang isagawa sa mga electromechanical na aparato. Ang liham na ito ay sinundan ng maraming talakayan, lumitaw ang isang memorandum ng mga layunin, at, sa wakas, ang mga pondo ay inilaan para sa pananaliksik. Ang unang pampublikong demonstrasyon ng machine translation (ang tinatawag na Georgetown experiment) ay naganap noong 1954. Sa kabila ng primitiveness ng system na iyon (diksyonaryo ng 150 salita, grammar ng 6 na panuntunan, pagsasalin ng ilang simpleng parirala), ang eksperimentong ito ay nakatanggap ng malawak na tugon. : nagsimula ang pananaliksik sa Inglatera, Bulgaria, Silangang Alemanya, Italya, Tsina, Pransya, Alemanya, Hapon at iba pang mga bansa; sa parehong 1954 sa USSR.
Ang unang henerasyon ng mga sistema ng pagsasalin ng makina ay batay sa mga sunud-sunod na algorithm ng pagsasalin "salita sa salita", "parirala sa parirala". Ang mga kakayahan ng naturang mga sistema ay tinutukoy ng mga magagamit na laki ng mga diksyunaryo, na direktang nakasalalay sa dami ng memorya ng computer. Ang pagsasalin ng teksto ay isinagawa sa magkahiwalay na mga pangungusap, ang mga koneksyon sa semantiko sa pagitan nila ay hindi isinasaalang-alang sa anumang paraan. Ang ganitong mga sistema ay tinatawag na direktang mga sistema ng pagsasalin. Sa paglipas ng panahon, pinalitan sila ng mga sistema ng mga kasunod na henerasyon, kung saan ang pagsasalin mula sa wika patungo sa wika ay isinasagawa sa antas ng mga istrukturang sintaktik. Gumamit ang mga algorithm ng pagsasalin ng isang hanay ng mga operasyon na, sa pamamagitan ng pagsusuri sa isinalin na pangungusap, bumuo ng syntactic na istraktura nito ayon sa mga tuntunin ng grammar ng input na wika ng pangungusap (tulad ng mga bata na tinuturuan ang wika sa high school), at pagkatapos ay ibahin ito sa syntactic istraktura ng output pangungusap at synthesize ang output pangungusap, substituting ang mga tamang salita mula sa diksyunaryo. Ang ganitong mga sistema ay tinatawag na T-systems (mula sa salitang Ingles na paglipat - pagbabago).
Ang pinakaperpektong diskarte ay itinuturing na ang diskarte sa pagbuo ng mga sistema ng pagsasalin ng makina batay sa pagkuha ng ilang wika-independiyenteng semantikong representasyon ng input na pangungusap sa pamamagitan ng semantic analysis nito. Pagkatapos, ang output na pangungusap ay synthesize ayon sa nakuhang semantikong representasyon. Ang ganitong mga sistema ay tinatawag na I-systems (I - mula sa salitang "interlingua"). Ito ay pinaniniwalaan na ang mga susunod na henerasyon ng mga sistema ng pagsasalin ng makina ay kabilang sa klase ng mga I-system.
Gayunpaman, napakaraming mga paghihirap at kalabuan sa kung paano gawing pormal at bumuo ng mga algorithm para sa pagtatrabaho sa mga teksto, kung aling mga diksyunaryo ang dapat ilagay sa makina, aling mga pattern ng linguistic ang dapat gamitin sa pagsasalin ng makina, at kung ano ang mga pattern na ito sa pangkalahatan.
Lumalabas na ang tradisyunal na lingguwistika ay walang aktwal na materyal, o ang mga ideya at representasyon na kailangan upang makabuo ng mga sistema ng pagsasalin ng makina na gagamit ng kahulugan ng isinalin na teksto.
Ang tradisyunal na lingguwistika ay hindi makapagbibigay ng mga panimulang ideya hindi lamang sa mga tuntunin ng semantika, kundi pati na rin sa mga tuntunin ng syntax. Sa oras na iyon, walang mga listahan ng mga syntactic constructions para sa anumang wika, ang mga kondisyon para sa kanilang compatibility at interchangeability ay hindi pinag-aralan, ang mga patakaran para sa pagbuo ng malalaking yunit ng syntactic structure mula sa mas maliit ay hindi binuo. Sa katunayan, wala ni isang katanungang ibinangon kaugnay ng pagtatayo ng mga sistema ng pagsasalin ng makina ang masasagot ng tradisyunal na lingguwistika noong 1950s.
At noong kalagitnaan ng 1960s, dalawang sistema ng pagsasalin ng Russian-English ang ibinigay para sa praktikal na paggamit sa USA:
- · MARK (sa Kagawaran ng dayuhang teknolohiya ng US Air Force);
- · GAT (binuo ng Georgetown University, ginamit sa National Atomic Energy Laboratory sa Oak Ridge at sa Euratom Center sa Ispra, Italy).
Gayunpaman, ang komisyon ng ALPAC na nilikha upang suriin ang mga naturang sistema ay dumating sa konklusyon na, dahil sa mababang kalidad ng mga tekstong isinalin ng makina, ang aktibidad na ito ay hindi kumikita sa US. Bagama't inirerekomenda ng komisyon ang pagpapatuloy at pagpapalalim ng mga teoretikal na pag-unlad, sa pangkalahatan, ang mga konklusyon nito ay humantong sa pagtaas ng pesimismo, pagbaba sa pagpopondo, at madalas sa kumpletong pagtigil ng trabaho sa paksang ito.
Gayunpaman, nagpatuloy ang pananaliksik sa ilang bansa, na tinulungan ng patuloy na pagsulong sa teknolohiya ng computing. Ang isang partikular na makabuluhang kadahilanan ay ang paglitaw ng mga mini- at personal na mga computer, at kasama ng mga ito ang lalong kumplikadong diksyunaryo, paghahanap, at iba pang mga system na nakatuon sa pagtatrabaho sa data ng natural na wika. Lumaki rin ang pangangailangan para sa pagsasalin dahil sa paglago ng relasyong pandaigdig. Ang lahat ng ito ay humantong sa isang bagong pagtaas sa lugar na ito, na nagmula sa kalagitnaan ng 1970s. Noong dekada 1980, dumating ang oras para sa malawakang praktikal na paggamit ng mga sistema ng pagsasalin, at lumitaw ang isang merkado para sa mga komersyal na pagpapaunlad sa paksang ito.
Gayunpaman, ang mga pangarap na ginawa ng sangkatauhan sa gawain ng pagsasalin ng makina kalahating siglo na ang nakalipas ay nananatiling higit na mga pangarap: ang mataas na kalidad na pagsasalin ng mga teksto sa malawak na hanay ng mga paksa ay hindi pa rin makakamit. Gayunpaman, ang pagbilis ng trabaho ng tagasalin kapag gumagamit ng mga machine translation system ay walang alinlangan: ayon sa mga pagtatantya noong huling bahagi ng dekada 1980, hanggang limang beses. Noong 1990, iminungkahi ni Larry Childs, isang dalubhasa sa machine translation, ang sumusunod na klasipikasyon ng mga machine translation system:
- · FAMT (Fully-automated machine translation) - ganap na automated machine translation;
- · HAMT (Human-assisted machine translation) - pagsasalin ng makina na may partisipasyon ng isang tao;
- · MAHT (Machine-assisted human translation) - pagsasalin na isinasagawa ng isang tao gamit ang computer.
Sa kasalukuyan, maraming komersyal na proyekto sa pagsasalin ng makina. Isa sa mga pioneer sa larangan ng machine translation ay si Systran. Sa Russia, isang grupo na pinamumunuan ni Propesor Piotrovsky (Russian State Pedagogical University na pinangalanang Herzen, St. Petersburg) ay gumawa ng malaking kontribusyon sa pagbuo ng machine translation.
Ang materyal na inihanda ni A. A. Taraskin
Ang pagsasalin sa computer ay isang mahirap ngunit kawili-wiling gawaing pang-agham. Ang pangunahing kahirapan nito ay nakasalalay sa katotohanan na ang mga natural na wika ay mahirap gawing pormal. Samakatuwid ang mababang kalidad ng teksto na nakuha sa tulong ng mga MP system, ang nilalaman at anyo nito ay nagsisilbing isang walang pagbabago na bagay ng mga biro. Gayunpaman, ang ideya ng pagsasalin ng makina ay malayo sa nakaraan. Sa unang pagkakataon, ang ideya ng posibilidad ng pagsasalin ng makina ay ipinahayag ni Charles Babbage, na binuo noong 1836-1848. proyekto ng digital analytical engine. Ang ideya ni Charles Babbage ay ang isang memorya ng 1000 50-bit na mga decimal na numero (50 gear sa bawat rehistro) ay maaaring gamitin upang mag-imbak ng mga diksyunaryo. Binanggit ni C. Babbage ang ideyang ito bilang katwiran sa paghiling sa gobyerno ng Britanya ng mga pondong kailangan para sa pisikal na sagisag ng Analytical Engine, na hindi niya kailanman nagawang itayo.
At pagkaraan ng 100 taon, noong 1947, si W. Weaver (Direktor ng Natural Sciences Department ng Rockefeller Foundation) ay sumulat ng liham kay Norbert Wiener. Sa liham na ito, iminungkahi niya ang paggamit ng deciphering technique upang isalin ang mga teksto. Ang taong ito ay itinuturing na taon ng kapanganakan ng machine translation. Sa parehong taon, isang algorithm para sa pagsasalin ng salita-sa-salita ay binuo, at noong 1948 ay iminungkahi ni R. Richens ang isang panuntunan para sa paghahati ng isang salita sa isang stem at isang pagtatapos. Sa susunod na dalawang dekada, mabilis na umunlad ang mga machine translation system. Noong Enero 1954, ang unang IBM Mark II machine translation system ay ipinakita sa isang IBM 701 machine. Ngunit noong 1967, kinilala ng isang espesyal na nilikha na Komisyon ng US National Academy of Sciences ang pagsasalin ng makina bilang hindi kapaki-pakinabang, na makabuluhang nagpabagal sa pananaliksik sa lugar na ito. Ang pagsasalin ng makina ay nakaranas ng bagong pagtaas noong dekada 70, at noong dekada 80 ay naging kumikita ito sa ekonomiya dahil sa comparative cheapness ng machine time.
Gayunpaman, sa USSR, nagpatuloy ang pananaliksik sa larangan ng pagsasalin ng makina. Matapos ipakita ang sistema ng IBM Mark II, isang grupo ng mga siyentipiko ng VINITI ang nagsimulang bumuo ng isang machine translation system para sa BESM machine. Ang unang sample ng pagsasalin mula sa Ingles sa Russian ay natanggap sa pagtatapos ng 1955.
Ang isa pang direksyon ng trabaho ay lumitaw sa Department of Applied Mathematics ng Mathematical Institute ng USSR Academy of Sciences (ngayon ay M. V. Keldysh Institute of Applied Mathematics, Russian Academy of Sciences) sa inisyatiba ni A. A. Lyapunov. Ang mga unang programa sa pagsasalin ng makina na binuo ng pangkat na ito ay ipinatupad sa makina ng Strela. Salamat sa gawain sa paglikha ng mga sistema ng MT, ang isang direksyon tulad ng inilapat na linggwistika ay nagkaroon ng hugis.
Noong dekada 70, isang grupo ng mga developer mula sa VINITI RAS ang nagtrabaho sa paglikha ng mga MT system sa ilalim ng gabay ng prof. G.G. Belonogov. Ang kanilang unang MP system ay binuo noong 1993, at noong 1996, pagkatapos ng ilang mga pagpapabuti, ito ay nakarehistro sa ROSAPO sa ilalim ng pangalang Retrans. Ang sistemang ito ay ginamit ng mga ministri ng depensa, komunikasyon, agham at teknolohiya.
Ang mga parallel na pag-aaral ay isinagawa sa laboratoryo ng Engineering Linguistics ng Leningrad State Pedagogical Institute. A. I. Herzen (ngayon ay Pedagogical University). Sila ang naging batayan ng pinakasikat na MP system na "PROMT". Ang mga pinakabagong bersyon ng produktong software na ito ay gumagamit ng mga teknolohiyang masinsinang pang-agham at binuo batay sa advanced na teknolohiya ng mga transition network at pormalismo ng neural network.
Pag-uuri ng mga sistema ng pagsasalin ng makina ayon kay Larry Child
Ang mga bagong miyembro ng forum ng wikang banyaga ng CompuServe ay madalas na nagtatanong kung sinuman ang makakapagrekomenda ng isang mahusay na programa sa pagsasalin ng makina para sa isang makatwirang presyo.
Ang sagot sa tanong na ito ay palaging "hindi". Depende sa sumasagot, ang sagot ay maaaring maglaman ng dalawang pangunahing argumento: alinman na ang mga makina ay hindi maaaring magsalin, o ang machine na pagsasalin ay masyadong mahal.
Pareho sa mga argumentong ito ay may bisa sa isang tiyak na lawak. Gayunpaman, ang sagot ay malayo sa pagiging napakasimple. Kapag pinag-aaralan ang problema ng machine translation (MT), kinakailangang isaalang-alang nang hiwalay ang iba't ibang subsection ng problemang ito. Ang sumusunod na dibisyon ay batay sa mga lektura ni Larry Childs na ibinigay sa 1990 International Conference on Technical Communication:
Ganap na awtomatikong pagsasalin;
Automated machine translation na may partisipasyon ng tao;
Pagsasalin na isinagawa ng isang tao gamit ang isang computer.
Ganap na awtomatikong pagsasalin ng makina
Ang ganitong uri ng machine translation ang ibig sabihin ng karamihan sa mga tao kapag pinag-uusapan nila ang machine translation. Ang kahulugan dito ay simple: ang teksto sa isang wika ay ipinasok sa computer, ang tekstong ito ay pinoproseso at ang computer ay naglalabas ng parehong teksto sa ibang wika. Sa kasamaang palad, ang pagpapatupad ng ganitong uri ng awtomatikong pagsasalin ay nahaharap sa ilang mga hadlang na hindi pa nalalampasan.
Ang pangunahing problema ay ang pagiging kumplikado ng wika mismo. Kunin, halimbawa, ang mga kahulugan ng salitang "maaari". Bilang karagdagan sa pangunahing kahulugan ng modal auxiliary verb, ang salitang "maaari" ay may ilang mga opisyal at balbal na kahulugan bilang isang pangngalan: "bangko", "latrine", "kulungan". Bilang karagdagan, mayroong isang archaic na kahulugan ng salitang ito - "upang malaman o maunawaan." Ipagpalagay na ang target na wika ay may isang hiwalay na salita para sa bawat isa sa mga halagang ito, paano matukoy ng isang computer ang mga ito?
Sa lumalabas, ilang pag-unlad ang nagawa sa pagbuo ng mga programa sa pagsasalin na nagdidiskrimina ng kahulugan batay sa konteksto. Ang mga kamakailang pag-aaral sa pagsusuri ng mga teksto ay higit na umaasa sa teorya ng posibilidad. Gayunpaman, ang ganap na awtomatikong pagsasalin ng makina ng mga teksto na may malawak na paksa ay imposible pa ring gawain.
Automated machine translation na may partisipasyon ng tao.
Ang ganitong uri ng pagsasalin ng makina ay medyo magagawa na ngayon. Sa pagsasalita tungkol sa pagsasalin ng makina na may partisipasyon ng isang tao, karaniwan nilang ibig sabihin ay pag-edit ng mga teksto bago at pagkatapos na maproseso ng isang computer. Ang mga tagapagsalin ng tao ay nagbabago ng mga teksto upang sila ay maunawaan ng mga makina. Matapos magawa ng computer ang pagsasalin, muling ine-edit ng mga tao ang magaspang na pagsasalin ng makina, na ginagawang tama ang teksto sa target na wika. Bilang karagdagan sa ganitong pagkakasunud-sunod ng trabaho, may mga MT system na nangangailangan ng patuloy na presensya ng isang taong tagapagsalin sa panahon ng pagsasalin upang matulungan ang computer na magsalin lalo na ang mga kumplikado o hindi maliwanag na mga istruktura.
Ang pagsasalin ng makina na tinulungan ng tao ay naaangkop sa mas malawak na lawak sa mga tekstong may limitadong bokabularyo ng limitadong limitadong mga paksa.
Ang ekonomiya ng paggamit ng human-assisted machine translation ay pinagtatalunan pa rin. Ang mga programa mismo ay karaniwang medyo mahal, at ang ilan sa mga ito ay nangangailangan ng espesyal na kagamitan upang gumana. Kailangang matutunan ang pre at post editing, at hindi ito isang magandang trabaho. Ang paglikha at pagpapanatili ng mga database ng mga salita ay isang matrabahong proseso at kadalasan ay nangangailangan ng mga espesyal na kasanayan. Gayunpaman, para sa isang organisasyong nagsasalin ng malalaking volume ng mga teksto sa isang mahusay na tinukoy na lugar ng paksa, ang pagsasalin ng makina na tinulungan ng tao ay maaaring maging isang medyo matipid na alternatibo sa tradisyonal na pagsasalin ng tao.
Pagsasalin ng isang tao gamit ang isang computer
Sa pamamaraang ito, ang tagapagsalin ng tao ay inilalagay sa gitna ng proseso ng pagsasalin, habang ang computer program ay itinuturing na isang tool na ginagawang mas mahusay ang proseso ng pagsasalin at tumpak ang pagsasalin. Ito ay mga ordinaryong electronic na diksyunaryo na nagbibigay ng pagsasalin ng kinakailangang salita, na ginagawang responsable ang tao sa pagpili ng tamang opsyon at ang kahulugan ng isinalin na teksto. Ang ganitong mga diksyunaryo ay lubos na nagpapadali sa proseso ng pagsasalin, ngunit nangangailangan ng gumagamit na magkaroon ng isang tiyak na kaalaman sa wika at gumugol ng oras sa pagpapatupad nito. Gayunpaman, ang proseso ng pagsasalin mismo ay lubos na pinabilis at pinadali.
Sa mga sistemang tumutulong sa tagapagsalin sa kanyang gawain, ang pinakamahalagang lugar ay inookupahan ng tinatawag na Translation Memory (TM) system. Ang mga sistema ng TM ay isang interactive na tool para sa pag-iipon sa isang database ng mga pares ng katumbas na mga segment ng teksto sa orihinal at isinalin na mga wika na may posibilidad ng kanilang kasunod na paghahanap at pag-edit. Ang mga produktong ito ng software ay hindi nilayon na gumamit ng napakatalino na mga teknolohiya ng impormasyon, ngunit, sa kabaligtaran, ay batay sa paggamit ng potensyal na malikhain ng tagasalin. Sa kurso ng trabaho, ang tagasalin mismo ang bumubuo ng database (o natatanggap ito mula sa iba pang mga tagasalin o mula sa customer), at ang mas maraming mga yunit na nilalaman nito, mas malaki ang babalik sa paggamit nito.
Narito ang isang listahan ng mga pinakasikat na sistema ng TM:
Transit Swiss kumpanya Star,
Trados (USA),
Tagapamahala ng Pagsasalin mula sa IBM,
Eurolang Optimizer ng kumpanyang Pranses na LANT,
DejaVu mula sa ATRIL (USA),
WordFisher (Hungary).
Ginagawang posible ng mga system ng TM na ibukod ang paulit-ulit na pagsasalin ng magkaparehong mga fragment ng teksto. Ang pagsasalin ng isang segment ay isinasagawa ng tagasalin nang isang beses lamang, at pagkatapos ang bawat kasunod na segment ay sinusuri para sa isang tugma (puno o malabo) sa database, at kung ang isang kapareho o katulad na segment ay natagpuan, pagkatapos ito ay inaalok bilang isang pagsasalin opsyon.
Sa kasalukuyan, ang mga pagpapaunlad ay isinasagawa upang mapabuti ang mga sistema ng TM. Halimbawa, ang core ng Star's Transit system ay batay sa teknolohiya ng neural network.
Sa kabila ng malawak na hanay ng mga sistema ng TM, nagbabahagi sila ng ilang karaniwang tampok:
Pag-andar ng pagkakahanay. Isa sa mga bentahe ng mga sistema ng TM ay ang kakayahang gumamit ng mga naisalin nang materyales sa paksang ito. Ang database ng TM ay maaaring makuha sa pamamagitan ng paghahambing ng segment-by-segment ng orihinal at mga file ng pagsasalin.
Availability ng mga filter ng import-export. Tinitiyak ng property na ito ang compatibility ng TM system na may iba't ibang word processor at publishing system at binibigyan ang tagasalin ng relatibong kalayaan mula sa customer.
Mekanismo para sa paghahanap ng malabo o kumpletong mga tugma. Ito ang mekanismong ito na kumakatawan sa pangunahing bentahe ng mga sistema ng TM. Kung, kapag nagsasalin ng isang text, ang system ay nakatagpo ng isang segment na kapareho o malapit sa naunang isinalin, kung gayon ang na-translate na segment ay iaalok sa tagasalin bilang isang variant ng pagsasalin ng kasalukuyang segment, na maaaring itama. Ang antas ng fuzzy na pagtutugma ay itinakda ng user.
Suporta para sa mga pampakay na diksyunaryo. Ang tampok na ito ay tumutulong sa tagasalin na manatili sa glossary. Bilang isang tuntunin, kung ang isang isinaling segment ay naglalaman ng isang salita o parirala mula sa isang pampakay na diksyunaryo, ito ay naka-highlight sa kulay at ang pagsasalin nito ay inaalok, na maaaring awtomatikong maipasok sa isinalin na teksto.
Paraan ng paghahanap ng mga fragment ng teksto. Napakadaling gamitin ng tool na ito kapag nag-e-edit ng pagsasalin. Kung sa proseso ng trabaho ay natagpuan ang isang mas matagumpay na bersyon ng pagsasalin ng anumang fragment ng teksto, kung gayon ang fragment na ito ay matatagpuan sa lahat ng mga segment ng TM, pagkatapos nito ang mga kinakailangang pagbabago ay sunud-sunod na ginawa sa mga segment ng TM.
Siyempre, tulad ng anumang produkto ng software, ang mga sistema ng TM ay may kanilang mga pakinabang at disadvantages, at ang kanilang saklaw. Gayunpaman, tungkol sa mga sistema ng TM, ang pangunahing kawalan ay ang kanilang mataas na gastos.
Ito ay lalong maginhawang gumamit ng mga TM system kapag nagsasalin ng mga dokumento tulad ng mga manwal ng gumagamit, mga tagubilin sa pagpapatakbo, disenyo at dokumentasyon ng negosyo, mga katalogo ng produkto at iba pang mga dokumento ng parehong uri na may malaking bilang ng mga tugma.
Machine Translation System (MT)
Alinsunod sa pag-uuri sa itaas, ang layunin ng gawaing ito ay pag-aralan at pag-aralan ang mga sistema ng MT ng pangalawang pangkat, dahil ang mga sistema ng MT ng unang pangkat ay hindi pa umiiral sa kalikasan, at ang mga sistema ng ikatlong pangkat, sa esensya. , ay hindi mga MT system, ngunit higit na nakapagpapaalaala sa mga electronic na diksyunaryo.
Ang mga MP system ay nagsasagawa ng awtomatikong pagsasalin ng teksto. Sa kasong ito, ang mga yunit ng pagsasalin ay mga salita o parirala, at pinapayagan ng mga pinakabagong pag-unlad na isinasaalang-alang ang morpolohiya ng isinalin na salita. Ang mga binuong MT system ay nagsasagawa ng pagsasalin ayon sa mga algorithm ng pagsasalin na tinukoy ng developer at/o inayos ng user.
Upang maisagawa ang pagsasalin ng makina, isang espesyal na programa ang ipinakilala sa computer na nagpapatupad ng algorithm ng pagsasalin, na nauunawaan bilang isang pagkakasunud-sunod ng hindi malabo at mahigpit na tinukoy na mga aksyon sa teksto upang makahanap ng mga tugma sa pagsasalin sa isang partikular na pares ng mga wika L1 - L2 para sa isang ibinigay na direksyon ng pagsasalin (mula sa isang tiyak na wika patungo sa isa pa). Kasama sa sistema ng pagsasalin ng makina ang mga bilingual na diksyunaryo na nilagyan ng kinakailangang impormasyon sa gramatika (morphological, syntactic at semantic) upang matiyak ang paglilipat ng katumbas, variant at transformational na mga sulat sa pagsasalin, pati na rin ang mga algorithmic grammatical analysis tool na nagpapatupad ng alinman sa mga pormal na grammar na pinagtibay para sa awtomatikong pagproseso ng teksto. . Mayroon ding mga stand-alone na machine translation system na idinisenyo upang magsalin sa loob ng tatlo o higit pang mga wika, ngunit ang mga ito ay kasalukuyang eksperimental.
Ang pinakakaraniwan ay ang sumusunod na pagkakasunud-sunod ng mga pormal na operasyon na nagbibigay ng pagsusuri at synthesis sa isang sistema ng pagsasalin ng makina:
1. Sa unang yugto, ipinapasok ang teksto at ang mga form ng input na salita (mga salita sa isang partikular na anyong gramatikal, halimbawa, ang dative plural) ay hahanapin sa input dictionary (diksyonaryo ng wika kung saan ginawa ang pagsasalin) na may kasamang morphological analysis, kung saan ang pag-aari ng salitang ito ay nabuo sa isang partikular na lexeme (isang salita bilang isang yunit ng diksyunaryo). Sa proseso ng pagsusuri, ang impormasyon na may kaugnayan sa iba pang antas ng organisasyon ng sistema ng wika ay maaari ding makuha mula sa anyo ng salita.
2. Kasama sa susunod na yugto ang pagsasalin ng mga idiomatic na parirala, mga yunit ng parirala o mga selyo ng isang partikular na lugar ng paksa (halimbawa, sa pagsasalin ng English-Russian, mga parirala tulad ng kaso ng, alinsunod sa tumanggap ng isang katumbas na digital at hindi kasama sa karagdagang pagsusuri sa gramatika); pagpapasiya ng pangunahing gramatikal (morphological, syntactic, semantic at lexical) na mga katangian ng mga elemento ng input text (halimbawa, ang bilang ng mga nouns, verb tense, syntactic function ng mga form ng salita sa tekstong ito, atbp.), na isinasagawa sa loob ang input na wika; resolution ng homography (conversion homonymy ng mga anyo ng salita - sabihin, English round ay maaaring maging isang pangngalan, pang-uri, pang-abay, pandiwa o pang-ukol); lexical analysis at pagsasalin ng lexemes. Karaniwan, sa yugtong ito, ang mga salitang may iisang halaga ay inihihiwalay mula sa mga polysemantic (na may higit sa isang katumbas na pagsasalin sa target na wika), pagkatapos nito ay isinalin ang mga salitang may iisang halaga ayon sa mga listahan ng katumbas, at ginagamit ang tinatawag na mga kontekstolohikal na diksyunaryo. upang isalin ang mga polysemantic na salita, ang mga entry sa diksyunaryo kung saan ay mga algorithm para sa pag-query ng konteksto sa pagkakaroon/kawalan ng mga determinant ng halaga ng konteksto.
3. Ang pangwakas na pagsusuri sa gramatika, kung saan tinutukoy ang kinakailangang impormasyon sa gramatika, na isinasaalang-alang ang data ng target na wika (halimbawa, sa mga pangngalang Ruso tulad ng sleigh, gunting, ang pandiwa ay dapat na nasa plural na anyo, sa kabila ng katotohanan na ang orihinal ay maaaring may iisang numero).
4. Sintesis ng mga anyo ng output na salita at mga pangungusap sa pangkalahatan sa target na wika.
Depende sa mga tampok ng morphology, syntax at semantics ng isang partikular na pares ng wika, pati na rin ang direksyon ng pagsasalin, ang pangkalahatang algorithm ng pagsasalin ay maaaring magsama ng iba pang mga yugto, pati na rin ang mga pagbabago sa mga yugtong ito o kanilang pagkakasunud-sunod, ngunit ang mga variation ng ganitong uri sa modernong mga sistema ay karaniwang hindi gaanong mahalaga. Ang pagsusuri at synthesis ay maaaring isagawa kapwa sa pamamagitan ng parirala at para sa buong teksto na ipinasok sa memorya ng computer; sa huling kaso, ang translation algorithm ay nagbibigay para sa kahulugan ng tinatawag na anaphoric links (halimbawa, ang koneksyon ng isang panghalip sa pangngalan na pinapalitan nito - sabihin, ang panghalip na im na may panghalip na salita sa paliwanag na ito mismo sa mga bracket).
Sa kasalukuyan, mayroong dalawang konsepto para sa pagbuo ng mga sistema ng MT:
1. Ang modelo ng isang "malaking diksyunaryo na may kumplikadong istraktura", na naka-embed sa karamihan sa mga modernong programa sa pagsasalin;
2. Ang modelong "meaning-text", na unang binuo ni A.A. Lyapunov, ngunit hindi pa ipinatupad sa anumang komersyal na produkto.
Sa ngayon, ang pinakakilalang machine translation system ay
PROMT 2000/XT ng PROMT;
Retrans Vista ng Vista at Advantis;
Socrates - isang hanay ng mga programa ng kumpanya ng Arsenal.
Sa kasalukuyan, ang kalidad ng pagsasalin ng makina ay nag-iiwan ng higit na ninanais, at ang mismong pag-iral ng mga naturang sistema ay mas wastong nakikita bilang isang paksa ng siyentipikong pananaliksik. Sa karamihan ng mga kaso, kapag nagtatrabaho sa isang proyekto, ang paggamit ng mga MT system ay hindi makatwiran, dahil:
Ang mga MT system ay hindi nagbibigay ng katanggap-tanggap na kalidad ng teksto ng output. Ang mas mataas na kalidad ay maaaring makamit sa pamamagitan ng paunang pag-configure ng system (PROMT XT series na mga produkto ay nagbibigay sa user ng maraming pagkakataon para dito), na ganap na hindi katanggap-tanggap para sa maliliit na volume ng isinalin na teksto, at/o sa pamamagitan ng kasunod na pag-edit, at ito ay nagpapabagal lamang sa magtrabaho kung ang tagasalin ay gumagamit ng blind method print.
Hindi ginagarantiyahan ng mga MT system ang pagsunod sa pagkakaisa ng terminolohiya, lalo na kapag ang isang pangkat ng mga tagapagsalin ay gumagawa ng isang malaking proyekto. O sa halip, maaari nilang garantiya ito sa ilalim ng kondisyon ng napakaingat na pangangasiwa ng mga diksyunaryo ng gumagamit, at hindi ito palaging nagkakahalaga ng pagbibilang.
Gayunpaman, sa ilang mga kaso, ang paggamit ng mga MP system ay nakakatulong pa rin upang mabawasan ang mga gastos sa oras. Nangyayari ito kung ang teksto ay sapat na napakalaki at naglalaman ng mga monotonous na terminolohiya, na ginagawang posible na medyo mabilis na ayusin ang MT system para dito. Kung gayon ang pag-edit ng teksto ay hindi magtatagal ng masyadong maraming oras. Gayunpaman, sa kasong ito, dapat mong bigyang-pansin ang estilo ng teksto ng pagsasalin. Pormal ang pagsasalin sa makina, kaya malaki ang posibilidad na masubaybayan ang mga syntactic na istruktura ng orihinal na wika, na karaniwan para sa pagsasalin sa pangkalahatan, at samakatuwid ay maaaring laktawan sa panahon ng pag-edit.
Sa pangkalahatan, maaaring gamitin ang mga MT system kung saan ginagamit ang pinaka-standardized na wika na may simpleng grammar at medyo maliit na bokabularyo. Ang isang medyo matagumpay na proyekto ng MP system ay ang German program na Meteo, na nagsasalin ng mga pagtataya ng lagay ng panahon mula sa French sa English at vice versa. Upang mapadali ang gawain ng mga tagapagsalin at teknikal na manunulat, minsang nakabuo ang Boeing ng pamantayan ng wika para sa pagsulat ng teknikal na dokumentasyon, na kilala bilang Boeing English.
MP Retrans Vista system
Ang mga sistema ng pagsasalin ng makina para sa mga teksto mula sa isang natural na wika patungo sa isa pa ay ginagaya ang gawain ng isang tagapagsalin ng tao. Ang kanilang pagiging epektibo ay nakasalalay, una sa lahat, sa lawak kung saan nila isinasaalang-alang ang mga layunin na batas ng paggana ng wika at pag-iisip. Sa kasamaang palad, ang mga batas na ito ay hindi pa rin sapat na pinag-aralan. Kapag nilulutas ang problema ng pagsasalin ng makina, kinakailangang isaalang-alang ang mayamang karanasan ng internasyonal na komunikasyon at ang karanasan ng mga aktibidad sa pagsasalin na naipon ng sangkatauhan. At ipinapakita ng karanasang ito na sa proseso ng pagsasalin, ang mga pariralang parirala na nagpapahayag ng mga integral na konsepto, at hindi mga indibidwal na salita, ay itinuturing na pangunahing mga yunit ng kahulugan, una sa lahat. Ang mga konsepto na iyon ay ang mga elementarya na imaheng pangkaisipan, gamit kung saan maaari kang bumuo ng mas kumplikadong mga imaheng pangkaisipan na tumutugma sa isinalin na teksto.
Sumang-ayon tayo na tawagan ang mga sistema ng pagsasalin ng makina, kung saan hindi mga indibidwal na salita, kundi mga pariralang parirala, ang itinuturing na pangunahing minimum na mga yunit ng kahulugan, mga sistema ng pagsasalin ng makina ng parirala. Sa mga sistemang ito, maaari ding gamitin ang mga indibidwal na salita, ngunit ang mga ito ay itinuturing na pantulong na mga yunit ng kahulugan, na kailangang gamitin para sa kakulangan ng mas mahusay.
Ang phraseological machine translation system ay dapat magsama ng knowledge base na naglalaman ng mga katumbas ng pagsasalin para sa pinakakaraniwang mga parirala, mga kumbinasyon ng parirala at indibidwal na salita, at mga tool sa software para sa morphological at syntactic na pagsusuri at synthesis ng mga teksto at para sa pag-edit ng tao. Sa proseso ng pagsasalin ng mga teksto, ginagamit ng system ang mga katumbas ng pagsasalin na nakaimbak sa base ng kaalaman nito sa sumusunod na pagkakasunud-sunod: una, isang pagtatangka na isalin ang buong parirala bilang isang integral unit; higit pa, sa kaso ng pagkabigo, ang mga parirala na kasama sa komposisyon nito; at, sa wakas, ang pagsasalin ng salita-sa-salita ng mga fragment ng teksto na hindi maisasalin ng unang dalawang pamamaraan ay isinasagawa. Ang mga fragment ng output text na nakuha ng lahat ng tatlong pamamaraan ay dapat na pare-pareho sa gramatika sa bawat isa (gamit ang mga pamamaraan ng morphological at syntactic synthesis).
Ang mga prinsipyo ng pagbuo ng mga sistema para sa phraseological machine translation ng mga teksto ay unang binuo noong 1975 sa paunang salita sa aklat ni D. Zhukov na "Kami ay mga tagasalin". Sa isang mas kumpletong anyo, ipinakita sila noong 1983 sa aklat ni G. G. Belonogov at B. A. Kuznetsov "Language Means of Automated Information Systems". Sa wakas, noong 1993, dalawang papel ang nai-publish na naglalarawan ng isang machine translation system batay sa mga prinsipyo at pamamaraan na ito para sa awtomatikong pagsasama-sama ng mga bilingual na diksyunaryo mula sa magkatulad na teksto (Russian at English). Ang pinakamahalaga sa mga prinsipyong ito ay:
1. Ang mga pangunahing yunit ng wika at pananalita, na, una sa lahat, ay dapat isama sa diksyunaryo ng makina, ay dapat na mga yunit ng parirala (mga kumbinasyon ng salita, mga parirala). Ang mga hiwalay na salita ay maaari ding isama sa diksyunaryo, ngunit dapat lamang itong gamitin sa mga pagkakataon kung saan hindi posibleng isalin batay lamang sa mga yunit ng parirala.
2. Kasama ng mga phraseological unit na binubuo ng tuluy-tuloy na pagkakasunud-sunod ng mga salita, ang machine translation system ay dapat ding gumamit ng tinatawag na "speech models" - phraseological units na may "empty spaces" na maaaring punan ng iba't ibang salita at parirala, na bumubuo ng makabuluhang mga segment ng speech .
3. Ang mga tunay na teksto, anuman ang kanilang pag-aari sa isa o ibang pampakay na lugar, ay kadalasang polythematic kung mayroon silang sapat na malaking volume. Samakatuwid, ang isang diksyonaryo ng makina na inilaan para sa pagsasalin ng mga teksto kahit na mula lamang sa isang lugar ng paksa ay dapat na polythematic, at higit pa para sa pagsasalin ng mga teksto mula sa iba't ibang mga lugar ng paksa. Dapat itong malikha, una sa lahat, batay sa awtomatikong pagproseso ng mga bilingual na teksto na mga pagsasalin ng bawat isa, at sa proseso ng paggana ng mga sistema ng pagsasalin.
4. Kasama ang pangunahing polythematic na diksyunaryo ng isang malaking volume, ipinapayong gumamit ng isang hanay ng mga maliliit na karagdagang pampakay na mga diksyunaryo sa mga sistema ng pagsasalin ng phraseological machine. Ang mga karagdagang diksyunaryo ay dapat maglaman lamang ng impormasyong wala sa pangunahing diksyunaryo (halimbawa, impormasyon tungkol sa mga katumbas na priyoridad sa pagsasalin ng mga parirala at salita para sa iba't ibang paksa).
Batay sa inilarawan na mga prinsipyo, ang VINITI RAS (tingnan sa itaas) ay bumuo ng dalawang sistema ng phraseological machine translation:
1) Russian-English translation system (RETRANS)
2) English-Russian translation system (ERTRANS).
Ang parehong mga sistema ay may parehong istraktura at humigit-kumulang sa parehong dami ng mga diksyunaryo ng makina. Samakatuwid, isasaalang-alang lamang natin ang unang sistema.
Ang RETRANS system ay may mga sumusunod na katangian:
1. Saklaw, layunin, functionality. Ang sistema ay idinisenyo para sa awtomatikong pagsasalin ng mga pang-agham at teknikal na teksto mula sa Russian patungo sa Ingles. Ang Russian-English polythematic machine dictionary ng system ay naglalaman ng terminolohiya sa natural at teknikal na agham, ekonomiya, negosyo, pulitika, batas at mga usaping militar. Sa partikular, naglalaman ito ng mga termino at phraseological unit sa mga sumusunod na paksa: Mechanical Engineering, Electrical Engineering, Energy, Transport, Aeronautics. Cosmonautics, Robotics, Automation at Radioelectronics, Computer Engineering, Communications, Mathematics, Physics, Chemistry, Biology, Medicine, Ecology, Agriculture, Construction and Architecture, Astronomy, Geography, Geology, Geophysics, Mining, Metalurgy, atbp.
Ang pagsasalin ng mga teksto ay maaaring isagawa sa awtomatiko at interactive na mga mode.
2. Ang dami ng polythematic machine dictionary: higit sa 1.300.000 mga entry sa diksyunaryo; 77 porsiyento ng mga ito ay mga parirala mula dalawa hanggang labimpitong salita ang haba. Ang dami ng karagdagang mga diksyunaryo ng makina (para sa pag-set up ng system para sa iba't ibang mga paksa) ay higit sa 200,000 mga entry.
Sistema ng MP PROMT XT
Ang mga produkto ng PROMT software ay batay sa solusyon ng mga sumusunod na pangunahing problema:
Una, malinaw sa lahat na mas malaki ang diksyunaryo, mas mahusay ang pagsasalin, na nangangahulugang ang unang problema ay ang problema sa paglikha ng malalaking diksyunaryo para sa mga system.
Pangalawa, malinaw na dapat isalin ng system ang mga pangungusap tulad ng: HELLO, KAMUSTA KA? Nangangahulugan ito na ang isa pang problema ay ang pagtuturo sa sistema na kilalanin ang mga matatag na rebolusyon.
Pangatlo, ito ay malinaw na ang isang pangungusap para sa pagsasalin ay nakasulat ayon sa ilang mga patakaran, ito ay isinalin ayon sa ilang mga patakaran, na nangangahulugan na may isa pang problema: upang isulat ang lahat ng mga patakarang ito sa anyo ng isang programa. Iyon, sa katunayan, ay lahat.
Ang pinaka-kagiliw-giliw na bagay ay ang mga problemang ito ay talagang ang mga pangunahing sa pagbuo ng mga sistema ng pagsasalin ng makina, ngunit ang isa pang bagay ay ang mga pamamaraan para sa paglutas ng mga ito ay malayo sa alam ng lahat at hindi ito kasing simple ng maaaring tila.
Ang mga pamamaraan para sa pag-aayos ng malalaking database ay medyo mahusay na binuo, ngunit para sa pagsasalin ito ay pantay na mahalaga, at marahil kahit na mas mahalaga, upang wastong istraktura ang impormasyon na maiugnay sa isang elemento ng database, upang piliin ang mismong elementong ito nang tama. Ilan, halimbawa, ang mga entry sa diksyunaryo ang dapat tumutugma sa ordinaryong salitang Ruso na "programa"? At, sa pangkalahatan, ang isang malaking diksyunaryo ay isang diksyunaryo na naglalaman ng maraming mga entry sa diksyunaryo, o isang diksyunaryo na nagbibigay-daan sa iyong makilala ang maraming salita mula sa isang teksto? Malinaw, ang pangalawa ay mas totoo. Samakatuwid, upang ilarawan ang parehong input at output na mga wika sa system, dapat mayroong ilang pormal na pamamaraan para sa paglalarawan ng morpolohiya, kung saan nakabatay ang pagpili ng yunit ng diksyunaryo.
Sa halos lahat ng mga sistema na sinasabing itinuturing na mga sistema ng pagsasalin, ang problema ng kumakatawan sa mga modelong morphological ay nalutas sa isang paraan o iba pa. Ngunit ang ilang mga sistema ay maaaring makilala ang isang milyong mga form ng salita na may dami ng diksyunaryo na limampung libong mga entry sa diksyunaryo, habang ang iba na may dami ng diksyunaryo na isang daang libong mga entry sa diksyunaryo ay maaaring makilala ang daang libo na ito.
Sa mga sistema ng pamilyang PROMT, isang morphological na paglalarawan, halos natatangi sa pagkakumpleto nito, ay binuo para sa lahat ng mga wika na maaaring hawakan ng mga system. Naglalaman ito ng 800 uri ng mga inflection para sa wikang Ruso, higit sa 300 mga uri para sa parehong Aleman at Pranses, at kahit para sa Ingles, na hindi kabilang sa mga inflectional na wika, higit sa 250 mga uri ng inflection ang natukoy. Ang hanay ng mga pagtatapos para sa bawat wika ay naka-imbak bilang mga istruktura ng puno, na nagbibigay hindi lamang ng isang mahusay na paraan ng pag-iimbak, ngunit din ng isang mahusay na morphological analysis algorithm.
Bilang karagdagan, ang modelo ng morpolohiya na ginamit ay naging posible upang bumuo ng isang ekspertong sistema para sa gumagamit - ang tagalikha ng diksyunaryo. Ang system na ito ay aktwal na awtomatiko ang pamamaraan para sa pag-highlight ng stem at pagtukoy ng uri ng inflection kapag nagpapasok ng mga bagong entry sa diksyunaryo.
Walang ganoong posibilidad sa alinman sa mga umiiral nang sistema ng pagsasalin ng makina, kahit na sa mga kalat na kalat na sistema tulad ng Power Translator (Globalink, USA), Language Assistant (MicroTac, USA), TRANSEND (Intergaph, USA), kung saan ang mga user ay kailangang manu-manong mag-conjugate at mag-inflect ng mga salita para sa mga gawain ng morphological model.
Gayunpaman, ang pagbuo ng isang paglalarawan ng morpolohiya ay nagbibigay-daan sa paglutas lamang ng problema kung ano ang heading ng isang entry sa diksyunaryo, kung saan natukoy ang unit ng teksto at unit ng diksyunaryo. Ngunit pagkatapos ng lahat, ang pagkakakilanlan ng isang salita mula sa isang teksto na may isang entry sa diksyunaryo ay hindi nangyayari para sa kapakanan ng pagkakakilanlan, tulad ng kinakailangan sa mga speller o electronic na mga diksyunaryo, kinakailangan para sa programa na maisagawa ang aktwal na mga pamamaraan sa pagsasalin. Anong impormasyon ang kailangan sa isang entry sa diksyunaryo at paano dapat ilarawan ang mga panuntunan sa pagsasalin upang maisalin ang programa?
Sa maraming mga sistema ng MT sa nakaraan (tulad ng mga ito ngayon), ang paglalarawan ng bokabularyo at ang paglalarawan ng mga algorithm ay itinuturing na mga panig ng parehong problema, ngunit ang solusyon, bilang panuntunan, ay hinahangad sa paghihigpit sa itinuturing na mundo, gramatikal man o semantiko. Halimbawa, batay sa katangiang "nauukol sa isang bahagi ng pananalita", ang isang grammar ng ganitong uri ay inilarawan:
Ang pariralang pangngalan ay isang pangngalan
Ang pariralang pangngalan ay pang-uri + pariralang pangngalan
ang pangkat ng pandiwa ay ang pandiwa + ang pariralang pangngalan
ang pangungusap ay pariralang pangngalan + pariralang pandiwa
Malinaw na ang ilang bahagi ng mga natural na pangungusap sa wika ay inilalarawan ng gayong gramatika, ngunit ang bahaging ito ay napakaliit, at sa batayan nito ay imposibleng tama na pag-aralan at isalin ang hindi bababa sa ilang tunay na teksto. Ngunit sa kabilang banda, maaari kang gumamit ng mahusay na mga pamamaraan para sa pagbuo ng isang converter ayon sa isang ibinigay na grammar, o, sa pinakamasama, magsulat ng isang programa na, sa pamamagitan ng enumeration, ay bubuo ng mga dependency tree para sa isang limitadong hanay ng mga pangungusap. Ang ganitong mga sistema ay nakatanggap ng mga kahulugang "pang-eksperimento" sa parehong paraan.
Isang paraan o iba pa, ngunit ito ay mula sa mga naturang proyekto na lumitaw ang mga sistema ng pagsasalin, na ngayon ay inaalok sa end user. Ito ay ang Power Translator (Globalink company) at Language Assistant (MicroTac company) at TRANSEND (Intergraph company).
Ang mga sistema ng mga pamilyang STYLUS at PROMT ay walang pagbubukod, dahil maraming mga espesyalista sa PROMT ang may karanasan sa ganitong uri ng mga proyekto. Gayunpaman, sa pagbuo ng mga sistema ng PROMT, isang tunay na rebolusyonaryong diskarte ang inilapat sa unang pagkakataon, na naging posible upang makakuha ng mga kahanga-hangang resulta. Ang mga sistema ng pagsasalin ng pamilyang PROMT ay mga sistemang idinisenyo batay sa hindi linguistic, ngunit cybernetic na pamamaraan.
Ito ay naging napaka-produktibo upang isaalang-alang ang sistema ng pagsasalin hindi bilang isang tagasalin, na ang gawain ay upang isalin ang teksto na katanggap-tanggap mula sa punto ng view ng input grammar, ngunit bilang ilang kumplikadong sistema, na ang gawain ay upang makakuha ng mga resulta para sa. di-makatwirang data ng pag-input, kabilang ang para sa mga tekstong hindi tama para sa grammar na ginagamit ng system.
Sa halip na ang tinatanggap na linguistic approach, na nagpapahiwatig ng alokasyon ng mga sequential na proseso ng pagsusuri at synthesis ng pangungusap, ang system architecture ay nakabatay sa representasyon ng proseso ng pagsasalin bilang isang proseso na may "object-oriented" na organisasyon batay sa hierarchy ng naprosesong bahagi ng pangungusap. Ginawa nitong sustainable at bukas ang mga sistema ng PROMT.
Bilang karagdagan, ginawang posible ng pamamaraang ito na gumamit ng iba't ibang pormalismo upang ilarawan ang pagsasalin ng iba't ibang antas. Gumagana rin ang mga system sa mga grammar ng network, katulad ng uri sa mga pinahabang transition network, at mga algorithm ng pamamaraan para sa pagpuno at pagbabago ng mga istruktura ng frame upang pag-aralan ang mga kumplikadong predicate.
Ang paglalarawan ng isang lexical na item sa isang entry sa diksyunaryo, na talagang walang limitasyon sa laki at maaaring naglalaman ng maraming iba't ibang mga tampok, ay malapit na magkakaugnay sa istraktura ng mga algorithm ng system at nakabalangkas hindi batay sa walang hanggang antithesis syntax - semantics, ngunit sa batayan ng mga antas ng mga bahagi ng teksto.
Kasabay nito, ang mga system ay maaaring gumana sa hindi kumpletong inilarawan na mga entry sa diksyunaryo, na isang mahalagang punto kapag nagbubukas ng mga diksyunaryo para sa gumagamit, kung saan hindi maaaring humingi ng banayad na pangangasiwa ng materyal sa wika.
Ang unang sistema ng pagsasalin ng makina, na inilabas ng PROMT noong 1991, ay nagsalin ng mga espesyal na teksto ng software mula sa Ingles patungo sa Russian. Gumamit siya ng maliit na diksyunaryo - humigit-kumulang 17 libong salita at expression, nagtrabaho sa isang kapaligiran ng DOS at walang mga tool sa pag-customize ng user. Ngunit kahit na ang unang sistemang ito ay maayos na inayos, at ang kasalukuyang teknolohiya para sa pagbuo ng mga algorithm ng pagsasalin ng makina na ginagamit ng PROMT ay hindi dumaan sa mga makabuluhang pagbabago. Sa kabaligtaran, ang diskarte na natagpuan noon ay naging napakabunga para sa iba't ibang wika.
Una, ipaliwanag natin ang ilang mga kahulugan: kasama ang pag-unlad ng pagsasalin ng makina bilang isang larangan ng inilapat na linggwistika, lumitaw din ang mga pag-uuri ng mga sistema, at naging kaugalian na hatiin ang mga sistema ng pagsasalin sa mga sistema ng uri ng TRANSFER at mga sistema ng uri ng INTERLINGUA. Ang dibisyong ito ay nakabatay sa mga kakaibang solusyon sa arkitektura para sa mga linguistic algorithm.
Ang mga algorithm ng pagsasalin para sa mga sistema ng uri ng TRANSFER ay binuo bilang isang komposisyon ng tatlong proseso: pagsusuri ng input sentence sa mga tuntunin ng mga istruktura ng input language, pagbabago ng istrukturang ito sa isang katulad na istraktura ng output language (TRANSFER) at pagkatapos ay synthesis ng output na pangungusap ayon sa nabuong kayarian.
Ang mga sistema ng uri ng INTERLINGUA ay nagpapalagay ng isang priori ang pagkakaroon ng isang tiyak na metalanguage ng mga istruktura (INTERLINGUA), kung saan posible na ilarawan ang lahat ng mga istruktura ng parehong input at output na mga wika sa pangkalahatang kaso; samakatuwid, ang algorithm ng pagsasalin sa isang sistema tulad ng INTERLINGUA ay ipinapalagay na mas simple: pagsusuri ng input na pangungusap sa mga tuntunin ng metalanguage at pagkatapos ay synthesis mula sa metastructure ng kaukulang pangungusap ng output na wika. Ang "tanging" kahirapan sa kasong ito ay ang bumuo ng metalanguage mismo at ilarawan ang natural na wika sa naaangkop na mga termino.
Sa kabila ng katotohanang umiiral ang klasipikasyong ito, at itinuturing na magandang anyo sa mga developer ng pagsasalin ng makina ang pagtatanong kung anong uri ng sistema ng PROMT, wala pang isang tunay na sistemang batay sa prinsipyo ng INTERLINGUA ang hindi pa nabuo.
Ang PROMT system ay walang exception, at sinasagot namin ang tanong na ito: ang aming system ay nagsasagawa ng paglilipat ng uri ng TRANSFER. Ngunit ito ay isang napaka-simpleng sagot, halos hindi ito sumasalamin sa arkitektura ng sistema ng PROMT. At ang mga kakaiba ay ang pamamaraang ito (TRANSFER) ay inilapat sa sistema na hindi alinsunod sa linguistic standard approach.
Ang katotohanan ay ang sistema ng pagsasalin, bilang panuntunan, ay gumagana sa mga kondisyon ng hindi kumpletong inilarawan na data, dahil ang wika ay isang buhay na sistema na mabilis na umuunlad: ang mga bagong salita ay patuloy na lumilitaw, ang mga bagong pag-andar ng mga lumang salita, at, kasama ang mga bagong nilalang, mga bago.mga halaga. Sa ilalim ng mga kundisyong ito, ang pagtukoy sa istrukturang pag-aari ng mga algorithm ng pagsasalin ay ang kanilang pagtutol sa arbitrary na data ng pag-input, at sa halip na isang sunud-sunod na TRANSFER, ang mga algorithm na nagsasagawa ng pagsasalin sa sistema ng PROMT ay batay sa isang hierarchical na diskarte na naghahati sa proseso ng pagsasalin sa magkakaugnay na TRANSFER para sa iba't ibang yunit ng pagsusuri.
Tinutukoy ng system ang antas ng mga leksikal na yunit, ang antas ng mga pangkat, ang antas ng mga simpleng pangungusap at ang antas ng kumplikadong mga pangungusap. Ang lahat ng mga prosesong ito ay konektado at nakikipag-ugnayan sa hierarchically alinsunod sa hierarchy ng mga unit ng teksto, pagpapalitan ng synthesize at minana na mga tampok. Ang ganitong pag-aayos ng mga algorithm ay ginagawang posible na gumamit ng iba't ibang pormal na pamamaraan para sa paglalarawan ng mga algorithm ng iba't ibang antas.
Isaalang-alang ang antas ng mga leksikal na yunit: ang leksikal na yunit ay isang salita o parirala na ang yunit ng pinakamababang antas. Parehong sa kaso ng input at sa kaso ng output na wika, ang salita ay inilalarawan bilang kumbinasyon ng stem at pagtatapos. Ginagawa nitong posible, sa isang banda, na kilalanin ang mga input na salita at pag-aralan ang input morphology, at, sa kabilang banda, upang maginhawang i-synthesize ang mga output na salita batay sa kanilang morphological na impormasyon (stem, inflection type, at ending address sa hanay ng mga endings. ng ganitong uri). Kaya, kung ipinakilala namin ang mga patakaran para sa pagbabago ng input morphological na impormasyon sa output morphological na impormasyon, ang TRANSFER ay isinasagawa sa morphological level.
Isinasaalang-alang ng antas ng pangkat ang mga mas kumplikadong istruktura: mga pangkat ng mga pangngalan, pang-uri, pang-abay at kumplikadong mga anyo ng pandiwa. Ang antas na ito sa pagsusuri, batay sa mga pormal na grammar ng network, ay nagagawang ikonekta ang mga grupo sa mga syntactic unit, na ang bawat isa ay nailalarawan sa pamamagitan ng synthesized na impormasyon sa istruktura at ang pangunahing elemento ng grupo. Ayon sa istruktura ng input na nakuha sa mga tuntunin ng mga direktang bahagi, kasama ang mga synthesized na tampok, ang pangkat ng output ay nabuo bilang isang hanay ng mga lexical na yunit na may mga halaga ng mga tampok na morphological na maaaring minana batay sa mga resulta ng pagsusuri ng grupo. Kaya, ang TRANSFER ay ipinatupad sa antas ng pangkat.
Ang pagsusuri ng mga simpleng pangungusap bilang mga istruktura na binubuo ng mga syntactic unit ay isinasagawa batay sa mga istruktura ng predicate ng frame, na nagbibigay-daan sa mga mahusay na pagbabago. Ang pandiwa ay itinuturing na pangunahing elemento para sa mga simpleng pangungusap at ang valency nito ay tumutukoy sa pagpuno ng kaukulang frame. Para sa bawat uri ng mga frame, mayroong isang tiyak na batas ng pagbabago sa output frame at ang disenyo ng mga actant. Kaya, ang PAGLIPAT ay ginaganap sa antas ng pangungusap. Ang pagsusuri ng mga kumplikadong pangungusap ay kinakailangan sa kaso ng pagbuo ng kasunduan ng mga panahunan at ang tamang pagsasalin ng mga unyon.
Agosto 21, 2016
Noong 1954, ang isang IBM 701 na computer na sumasakop sa ilang silid ay may bokabularyo na 250 salita at ilang simpleng panuntunan upang tumpak na isalin ang 60 parirala mula sa Russian patungo sa Ingles. Ang tagumpay na ito (ang sikat na eksperimento sa Georgetown) ay malawak na sinakop sa media, at ang mga awtoridad ng US ay naniniwala sa isang magandang hinaharap - machine translation ng mga text ng kaaway sa Ingles sa loob ng sampung taon.
Gayunpaman, hindi ito nangyari. At dahil jan...
Tingnan muna natin ang kasaysayan.
Ang kasaysayan ng pagsasalin ng makina ay nagsimula noong ika-17 siglo, nang iminungkahi ng mga pilosopo gaya nina Leibniz at Descartes ang pagkakaroon ng isang tiyak na code na nag-uugnay sa mga salita ng iba't ibang wika. Ang lahat ng mga pagpapalagay ay hypothetical, at walang sinuman ang aktwal na nagtagumpay sa paglikha ng isang makina ng pagsasalin.
Ang mga unang aplikasyon para sa isang patent para sa isang "translation machine" ay isinampa noong kalagitnaan ng 1930s. Isang aplikasyon ang inihain ng Pranses na imbentor na si J. Artsruni, na lumikha lamang ng isang awtomatikong bilingual na diksyunaryo sa papel na tape. Ang isa pa ay ginawa ng siyentipikong Sobyet na si Pyotr Troyansky, na ang imbensyon ay mas detalyado. Kasama dito ang parehong bilingual na diksyunaryo at mga paraan upang gumana sa mga tungkuling panggramatika sa pagitan ng dalawang wika batay sa Esperanto. Ang sistemang ito ay binubuo ng tatlong yugto: ang una ay ang mga sumusunod - ang editor, isang katutubong nagsasalita, ay kailangang iugnay ang mga salita ng pinagmulang wika (FL) sa mga lohikal na anyo alinsunod sa mga syntactic function; sa ikalawang yugto, kailangang "isalin" ng makina ang lahat ng mga pormang ito sa target na wika (TL); at sa ikatlong yugto, inedit ng katutubong nagsasalita ng target na wika ang resulta. Ang kanyang pamamaraan ay nanatiling hindi kilala hanggang sa katapusan ng 50s, nang lumitaw ang mga computer.
Ang unang plano para sa isang computer-based translation machine ay iminungkahi ni Warren Weaver, isang researcher ng Rockefeller Foundation, sa kanyang memorandum noong Hulyo 1949. Ang mga panukalang ito ay batay sa teorya ng impormasyon, na naging matagumpay sa panahon ng Ikalawang Digmaang Pandaigdig na may kaugnayan sa cryptography at ang pagkalat ng ideya ng mga unibersal na prinsipyo ng natural na mga wika.
Pagkalipas ng ilang taon, nagsimula ang mga aktibidad sa pananaliksik na may kaugnayan sa machine translation sa lahat ng unibersidad sa US. Noong Enero 7, 1954, matagumpay na naisagawa ng IBM, kasama ng Georgetown University (USA), ang unang pagpapakita ng isang bagong sistema ng pagsasalin ng makina, na naganap sa New York sa punong-tanggapan ng IBM. Ang mga resulta ng demonstrasyon ay tinakpan sa pahayagan at umakit ng malaking interes ng publiko. Ang sistema mismo ay hindi hihigit sa isang laruan ayon sa mga pamantayan ngayon, dahil gumamit ito ng 250-salitang diksyunaryo at isinalin mula sa Russian sa Ingles ang 49 na paunang napiling kemikal na mga pangungusap. Gayunpaman, pinasigla ng demonstrasyon ang pagkalat ng ideya ng hindi maiiwasang pagsasalin ng makina, at lalo na ang pang-akit ng pagpopondo sa mga institusyong pananaliksik hindi lamang sa Estados Unidos, kundi sa buong mundo.
Ang mga naunang sistema ay gumamit ng malalaking bilingual na diksyunaryo at mga panuntunang nakaprograma sa kamay upang ilagay ang mga output na salita sa tamang pagkakasunod-sunod. Sa huli, nakitang limitado ang paraang ito, at ang pag-unlad ng mga agham pangwika, halimbawa, generative linguistics o transformational grammar, ay naglalayong pahusayin ang kalidad ng pagsasalin.
Ang mga operating system ay na-install sa oras na ito. Ang US Air Force ay gumamit ng isang programa na binuo ng IBM at ng Unibersidad ng Washington, habang ang US Atomic Energy Commission at Euratom sa Italya ay gumamit ng isang sistema na binuo ng Georgetown University. At kahit na ang kalidad ng output ay mababa, ang sistema ay popular sa mga mamimili, dahil sa pagtaas ng bilis ng pagsasalin.
Bumalik tayo sa eksperimento sa Georgetown. Siyempre, ang eksperimento sa palabas, bilang karagdagan sa siyentipiko, ay may panig na pampulitika. Ang pagsubok ng bomba atomika ng Sobyet noong 1949 at ang paglulunsad ng Sputnik noong 1957 ay nagpakita sa Estados Unidos na ang USSR ay hindi papayag sa lahi ng siyensya. Bilang karagdagan, upang maunawaan kung ano ang karaniwang nangyayari sa likod ng Iron Curtain, ang isang mabilis na pagsasalin ng maraming bukas at lihim na mga dokumento sa Ingles ay hindi makakasakit. Ang proyekto ng pagsasalin ng makina ay lumitaw sa intersection ng mga interes ng mga Amerikanong siyentipiko, sibilyan at militar, na gustong magbasa ng mga publikasyong pang-agham ng Sobyet, at mga opisyal ng paniktik. Ang mga may-akda ng proyekto ay umaasa na ang "pang-agham na Ruso", kasama ang mga simpleng parirala at malinaw na bokabularyo, ay magpapahintulot sa mga computer na makabisado ang isang kumplikado, variable na ordinaryong wikang Ruso.
Sumulat ang mga Ruso!
Noong 1948, 33 porsiyento ng siyentipikong panitikan ang nai-publish sa Russian. Ang wikang Aleman sa mga ginintuang taon ng "Teutonic" na agham ay umabot ng 40 porsyento. Sa partikular, kung noong 1913 ang mga tekstong Ruso ay umabot ng 2.5 porsiyento ng mga publikasyong isinasaalang-alang ng Serbisyo ng Mga Abstract ng Kemikal, kung gayon noong 1958 - 17 porsiyento, na higit na lumampas sa Aleman (10 porsiyento) at Pranses (5 porsiyento). Noong 1944, binalaan ng editor ng publikasyon ang mga mambabasa tungkol sa pangangailangang matuto ng Ruso.
Sa pagtatapos ng ika-19 na siglo, ang mga Amerikanong siyentipiko at inhinyero ay natutong magbasa ng Aleman. Ngunit sino ang mag-aakala na sa loob lamang ng limang taon ng digmaan, ang Aleman ay mapupunta sa paligid at kailangan mong makabisado ang mga mahiwagang karakter ng Cyrillic! Noong 1953, sa 400,000 na-survey na mga siyentipiko at inhinyero, 400 katao lamang ang mahusay na nagbabasa ng Russian.
Isa sa mga punch card na may parirala sa Russian
Ang sitwasyon ay mas kumplikado ng mga patakaran ni Stalin. Noong 1947, sa Unyong Sobyet, nakikipaglaban laban sa "paglikot sa harap ng Kanluran" at pagtagas ng impormasyon, lahat ng mga siyentipikong journal sa mga banyagang wika (Comptes rendus ng Academy of Sciences ng USSR, Acta Physicochimica at Journal of Physics ng USSR) Sarado na kami. Bukod dito, tumigil sila sa pag-publish ng mga nilalaman ng journal at mga buod ng mga artikulo sa mga banyagang wika - at ngayon ang mga siyentipiko ng Kanluran na hindi nakakaalam ng Ruso ay hindi rin maintindihan kung ano ang tungkol sa mga bagong publikasyon.
Mula noong huling bahagi ng 1940s, at lalo na pagkatapos ng paglulunsad ng satellite ng Sobyet, ang Kongreso ng US ay naglaan ng sampu-sampung milyong dolyar para sa edukasyon sa wikang Ruso. Upang gawing simple ang gawain, ang mga mananaliksik mismo ay naglagay ng konsepto ng "pang-agham" o "teknikal" na Ruso, malayo sa hindi maintindihan na wika ng Pushkin at Dostoevsky. Ang internasyonal na bokabularyo, isang kasaganaan ng mga formula, simpleng grammar ay dapat na gawing mas madali ang pag-aaral hangga't maaari. Ngunit walang partikular na pag-unlad sa mastering Russian. Dito ibinaling ng mga Amerikano ang kanilang atensyon sa mga pinakabagong teknolohiya - mga kompyuter.
Mga sasakyan para iligtas!
Kabalintunaan, ang pagsasalin ng makina ay pinasimunuan ng isang taong malayo sa parehong istrukturang linggwistika at teknolohiya ng kompyuter - ang personal na tagapagsalin ni Heneral Eisenhower na si Leon Dostert. Ipinanganak siya noong 1904 sa France. Sa Unang Digmaang Pandaigdig, sa mga taon ng pananakop ng mga Aleman, mabilis na natutunan ni Leon ang Aleman at na-recruit upang magtrabaho bilang isang tagasalin. Ang parehong bagay ay nangyari nang sakupin ng mga Amerikano ang kanyang bayan ng Longwy: na pinahahalagahan ang mga talento ng batang tagapagsalin, binayaran ng mga opisyal ang kanyang pag-aaral sa Estados Unidos. Noong 1939, naging propesor na siya ng Pranses sa Georgetown University. Matapos ang pagkatalo ng France noong 1940, kinuha ni Doster ang pagkamamamayang Amerikano at dumaan sa digmaan sa punong-tanggapan ng Eisenhower, na tumaas sa ranggo ng koronel.
Noong 1945, sa International Military Tribunal sa Nuremberg, talagang nag-imbento si Doster ng sabay-sabay na pagsasalin - dahil ang magkakasunod na pagsasalin ay hindi katanggap-tanggap na pahabain ang isang napakahabang proseso. Nakabuo siya ng ideya na isara ang mga interpreter sa "aquarium" at mag-broadcast ng mga talumpati sa bawat isa sa mga kalahok sa proseso nang paisa-isa, sa pamamagitan ng mga headphone. Ang lahat ng kagamitan ay naibigay ng kaibigan ni Doster na si Thomas Watson, ang magiging presidente ng IBM. Ang pagkakaroon ng pag-aayos ng isang katulad na sistema sa UN, bumalik si Doster sa unibersidad bilang pangulo ng bagong Institute of Languages and Linguistics.
Hindi nakakagulat na ang polyglot na ito, na ang kapalaran ay binago ng dalawang digmaang pandaigdig, ay nais na pigilan ang ikatlo. Sa pagsasalita noong 1951 sa mga pahina ng ARMOR, ang magazine ng US armored forces, si Doster ay nag-aalinlangan tungkol sa pagiging epektibo ng labanan ng NATO bloc - dahil mismo sa kawalan ng kakayahan ng mga sundalong multilingguwal ng mga kalahok na bansa na magkaintindihan.
Leon Doster
Ang kaligtasan ay nagmula sa hindi inaasahang quarter. Noong mga taon ng digmaan, ang mga computer ng IBM punched card ay ginamit hindi lamang upang kalkulahin ang mga trajectory ng mga shell at lutasin ang mga problema sa logistik, kundi pati na rin sa cryptography. Pinangunahan nito si Warren Weaver, isang empleyado ng Rockefeller Foundation, sa ideya ng pagsasalin ng makina. Noong 1947, sumulat siya ng isang liham sa ama ng cybernetics, si Norbert Wiener: "Ang problema sa pagsasalin ay maaaring malutas tulad ng isang problema ng cryptography. Kapag nakakita ako ng isang artikulo sa Russian, sinasabi ko sa aking sarili: "Ito ay aktwal na nakasulat sa Ingles, ngunit ito ay naka-encrypt na may kakaibang mga character na aking na-decode." Wiener, na nagsasalita ng ilang mga wika, smashed ang proyekto, na itinuro ang hindi pa rin nalutas na problema - ang mga salita ng natural na mga wika, hindi tulad ng mga numero, ay may masyadong maraming malabo at hindi maliwanag na kahulugan upang isalin nang mekanikal.
Ngunit nakatanggap si Weaver ng sapat na pondo mula sa Foundation para patuloy na isulong ang kanyang mga ideya. Noong 1952, inisponsor niya ang unang kumperensya sa pagsasalin ng makina, kung saan ang mga pangunahing teknikal at pilosopikal na problema ng proyektong ito ay tininigan. Lumahok din si Doster sa symposium - at mabilis na natanto na para sa tagumpay ng pagsasalin ng makina, hindi dapat makipagtalo tungkol sa mga pangunahing problema, ngunit bumuo ng isang aparato na magpapatunay sa lahat ng pagiging posible ng gawaing ito.
Ang makina ng Doster ay nakabatay sa anim na pangunahing operasyon ("mga panuntunan") at, samakatuwid, maaari lamang magsalin ng mga pangungusap kung saan sila nag-apply. Ang bawat isa sa 250 salita ng leksikon ay na-encode ng dalawang numero na tumutukoy sa isang binary decision tree. Ang computer ay pumili sa pagitan ng direkta at hindi direktang pagkakasunud-sunod ng salita, pati na rin ang isa sa dalawang kahulugan ng diksyunaryo. Sa kabila ng limitadong pondo, ang mga resulta ay kahanga-hanga: Ang mga pariralang Ruso sa Latin ay pinalo sa makina (sa mga punched card), at pagkatapos ng halos sampung minuto ang resulta ay ibinigay:
KRAXMAL VIRABATIVAYETSYA MYEKHANYICHYESKYIM PUTYEM YIZ KARTOFYELYA
Ang almirol ay ginawa ng mga mekanikal na pamamaraan mula sa patatas
VYELYICHYINA UGLYA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU
Ang magnitude ng anggulo ay tinutukoy ng kaugnayan ng haba ng arko sa radius
MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI
Nagpapadala tayo ng mga kaisipan sa pamamagitan ng pagsasalita
Bakit mapanganib ang pera ng CIA?
Ang kagila-gilalas na tagumpay ng demonstrasyon noong 1954 ay nagdala sa mga disenyo ni Doster sa atensyon ng Navy, CIA, at iba pang katulad na ahensya. Ngunit ang mga pwersang panseguridad ay hindi nagmamadaling umalis. Dito ang hindi inaasahang tulong ay ibinigay ng USSR. Si Alexei Lyapunov, ang ama ng Soviet cybernetics, ay nagbigay pansin sa artikulo tungkol sa eksperimento sa Georgetown at sa lalong madaling panahon ay lumikha ng isang pangkat ng pananaliksik sa Mathematical Institute. Sinundan siya ni Dmitry Panov mula sa Institute of Precise Mathematics and Computer Engineering, at noong 1958, 79 na iba't ibang institusyon ang nakikibahagi sa pagsasalin ng makina.
Doster at ang kanyang mga kasamahan, na itinuturo ang pangangailangan na "mahuli sa USSR", sa wakas ay nakatanggap ng mapagbigay na pondo - isang daang libong dolyar sa isang taon. Nakatulong din na ang matandang front-line na kaibigan ni Doster na si Allen Dulles ay naging pinuno ng CIA noong 1956. Ang departamento ay kulang sa mga analyst na nagsasalita ng Ruso upang iproseso ang impormasyon tungkol sa USSR, at tiniyak ni Doster kay Dulles na malapit nang sumagip ang kanyang mga makina. Noong 1956-1958, ang grupong Georgetown ay nakatanggap ng humigit-kumulang isang milyon tatlong daang libong dolyar mula sa CIA (10 milyon sa rate ng 2016). Walang isang pangkat ng siyentipiko noong panahong iyon, maliban sa mga nuclear physicist, ang maaaring managinip ng ganoong halaga. Halos walong libong termino ng organic chemistry ang isinalin sa mga code sa mga punched card. Pinirmahan din ni Doster ang isang kontrata para isalin ang mga dokumento ng Sobyet sa kapangyarihang nuklear.
Doster at Watson (kanan) sa panahon ng Georgetown Experiment
Gayunpaman, noong kalagitnaan ng dekada 1960, natipon ang mga ulap sa ibabaw ng proyekto. Ang pilosopo na si Yehoshua Bar-Hillel, ang unang espesyalista ng bansa sa pagsasalin ng makina, ay dumating sa konklusyon na ito ay imposible kahit sa hinaharap. Ang computer, ayon sa kilalang halimbawa ng Bar-Hillel, ay hindi naiintindihan ang pagkakaiba sa pagitan ng mga parirala Ang kahon sa panulat (kahon sa arena) at Ang panulat ay nasa kahon (panulat sa kahon) - isang intuitively nauunawaan ng tao kapag ang panulat ay nangangahulugang "arena", at kapag - "hawakan".
Noong 1963, nagawang pigilan ni Doster ang mga pag-atake ng mga kongresista na nagsagawa ng mga espesyal na pagdinig sa isyu ng awtomatikong pagsasalin. Ngunit noong 1964, ang Committee on Applied Linguistics ng US National Academy of Sciences ay nagpahayag ng "kakulangan ng pag-unlad" - walang machine translation ng mga tunay, hindi nabagong mga artikulo mula sa Russian tungo sa English. Itinigil din ng CIA ang pagpopondo (nang walang paliwanag).
Nagretiro ang mga makina.
Sa katunayan, ang nakamamanghang tagumpay ng eksperimento sa Georgetown ang naghukay sa libingan ng proyekto. Ang mga unang parirala ay napakahusay, at ang mga pagsasalin ng mas kumplikadong mga teksto ay naging hindi tumpak, malamya, o kahit na hindi maintindihan nang walang karagdagang pag-edit.
Ayon kay Gordin, ang nakamamatay na pagkakamali ni Doster ay ang kawalan ng atensyon sa mga mamimili ng mga pagsasalin ng makina. Eksklusibong nakatuon siya sa mga ahensya ng gobyerno, na maaaring huminto sa pagpopondo anumang oras (na ginawa nila).
Gayunpaman, ang problema ng "mga lihim ng agham ng Sobyet" ay nalutas pa rin sa USA, at sa medyo matipid na paraan. Ang mga pribadong publisher ay lumikha ng isang serye ng mga journal (halimbawa, ang Journal of general chemistry ng USSR), kung saan ang mga artikulo mula sa mga journal ng Sobyet ay isinalin sa isang piraso. Sa una, ang mga publikasyong ito ay nakahanap ng isang nagpapasalamat na madla sa mga Amerikano na hindi gustong matuto ng Ruso, ngunit pagkatapos ng ilang taon, ang bahagi ng sirkulasyon ay napunta sa mga dayuhang espesyalista. Ang mga iskolar mula sa France, Japan, India, o Brazil, na gustong malaman kung ano ang sinasaliksik at inimbento sa USSR, ay hindi natutong Ruso, ngunit bumili ng mga abstract na journal ng Amerika. Kaya, ang rebolusyonaryong pag-unlad ng agham at teknolohiya ng Sobyet ay nakatulong sa pagtatatag ng Ingles bilang monopolyong internasyonal na wika ng mga siyentipiko.
Ang paglalathala ng ulat ay nagkaroon ng mas malaking epekto sa pagsasaliksik sa pagsasalin ng makina sa US, at higit pa sa USSR at UK. Hindi bababa sa US, ang ganitong uri ng pananaliksik ay itinigil sa loob ng isang buong dekada. Sa Canada, France at Germany, gayunpaman, nagpatuloy ang pananaliksik. Sa US, ang pangunahing pagbubukod ay ang mga tagapagtatag ng Systran (Peter Thoma)
Kung noong 60s ang diin ay sa ilang mga pares ng wika at input, pagkatapos noong 70s mababang gastos para sa mga system na may kakayahang magsalin ng hanay ng teknikal at komersyal na mga teksto ay naging isang kinakailangan. Ang pangangailangan ay pinalakas ng paglago ng globalisasyon at ang pangangailangan para sa pagsasalin sa Canada, Europe at Japan.
80s early 90s
Noong dekada 1980, dumami ang iba't-ibang at bilang ng mga programa sa pagsasalin ng makina. Ang mga sistema ng pagsasalin batay sa teknolohiya ng mainframe gaya ng Metal ay ginamit.
Bilang resulta ng pagtaas ng kakayahang magamit ng mga microcomputer, lumitaw ang isang merkado para sa murang mga programa sa pagsasalin ng makina. Sinamantala ng maraming kumpanya sa Europe, Japan at US ang pagkakataong ito. Ang mga sistema ay ipinakilala sa mga merkado ng China, Silangang Europa, Korea at USSR.
Noong 1980s, nagkaroon ng malaking buzz sa Japan tungkol sa machine translation. Sa pagdating ng ikalimang henerasyon ng mga computer, ang Japan ay nagplano na tumalon higit sa lahat sa larangan ng teknolohiya at programming, ang proyekto na may kaugnayan sa paglikha ng mga programa para sa pagsasalin mula / sa Ingles na interesado sa maraming kumpanya (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo , Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).
Ang pananaliksik noong dekada 80 ay batay sa pagsasalin ng mga yunit ng linggwistika gamit ang morphological, syntactic at semantic analysis.
Ang unang komersyal na mga produkto ng pagsasalin ng makina na natagpuan ang praktikal na paggamit sa Russia ay lumitaw noong kalagitnaan ng 80s. Ang mga ito ay ipinatupad sa mga personal na computer at mga direktang sistema ng pagsasalin, ang mga kakayahan nito ay nakabatay sa malalaking (kumpara sa mga unang sistema) na mga diksyunaryo, at hindi sa kakayahang magsuri at mag-synthesize ng mga teksto.
Ang mga modernong komersyal na produkto ng pagsasalin ng makina ay inaalok ng mga domestic na kumpanya:
- "Vista Technologies" at "Adventis", na nabuo noong 1991 ng isang pangkat ng mga developer na umiwas sa VINITI;
- PROMT, nabuo noong 1991;
- "Media Lingua".
Halimbawa, ang mga diksyunaryo ng Retrans Vista ay nag-iimbak ng milyun-milyong konsepto, na kinabibilangan hindi lamang ng mga tradisyonal na hanay ng mga parirala, ngunit, higit sa lahat, mga pariralang ginagamit sa pang-araw-araw na pananalita. Bilang karagdagan, mayroong isang konseptwal na programa ng pagsusuri na awtomatikong kumukuha ng mga bagong parirala mula sa teksto at kasama ang mga ito sa diksyunaryo. Ang mga pangunahing diksyunaryo ng Retrans Vista system ay naglalaman ng mga termino at pariralang yunit para sa natural at teknikal na agham, ekonomiya, negosyo at pulitika. Ang dami ng polythematic machine dictionary ay humigit-kumulang 3.4 milyong salita (1.8 milyon sa Russian-English na bahagi, 1.6 milyon sa English-Russian na bahagi), at 20% sa mga ito ay mga salita, at 80% ay nakatakdang mga parirala na may average na " haba" ng 2.2 salita.
Ang huling bahagi ng dekada 1980 ay nakakita ng pagtaas sa bilang ng mga pamamaraan na ginamit sa pagsasalin ng makina. Ang sistema na binuo ng IBM ay batay sa isang istatistikal na pamamaraan. Ang ibang mga grupo ay gumamit ng mga pamamaraan batay sa malaking bilang ng mga sample na pagsasalin, isang pamamaraan na tinatawag na sample-based na machine translation. Ang tampok na pagtukoy ng parehong mga diskarte ay ang kakulangan ng semantic at syntactic na mga panuntunan at pag-asa sa pagmamanipula ng text corpora.
Noong dekada 90, pagkatapos ng tagumpay ng speech recognition at synthesis programs at sa pagbuo ng Verbmobil, nagsimula ang mga development sa speech translation.
Bilang resulta ng pagdating ng badyet at mas makapangyarihang mga computer, tumaas ang pangangailangan para sa mga programa sa pagsasalin ng makina. Noong unang bahagi ng 90s na nagsimulang isagawa ang pagsasalin hindi ng malalaking computer, ngunit ng mga personal na computer at display terminal. Ang isa sa mga kumpanya na nasa pinuno ng merkado ng PC noong panahong iyon ay ang Systran.
Kamakailang Pananaliksik
Sa nakalipas na ilang taon, ang pagsasalin ng makina ay sumailalim sa mga makabuluhang pagbabago. Sa ngayon, maraming pananaliksik ang ginagawa sa larangan ng statistical machine translation at machine translation batay sa mga halimbawa ng pagsasalin. Ngayon, ilang kumpanya ang gumagamit ng statistical machine translation para sa mga komersyal na layunin, tulad ng Microsoft (gamit ang sarili nitong patented MT statistical program upang isalin ang mga base na artikulo). Nagkaroon ng panibagong interes sa hybridization, pinagsasama ng mga mananaliksik ang syntactic at morphological (i.e. linguistic) na kaalaman sa mga statistical system na may mga dati nang panuntunan.
pinagmumulan
Lektura Blg. 8 Paksa: Ang layunin ng mga sistema ng pagsasalin ng makina.
Layunin ng pagsasalin ng makina
Ang pagsasalin ng makina (MT), o awtomatikong pagsasalin (AT), ay isang masinsinang umuunlad na lugar ng siyentipikong pananaliksik, eksperimentong pag-unlad at gumagana nang mga sistema (MPS), kung saan ang isang computer ay kasangkot sa proseso ng pagsasalin mula sa isang natural na wika ( NL) sa isa pa. Ang SMT ay nagbukas ng mabilis at sistematikong pag-access sa impormasyon sa isang wikang banyaga, nagbibigay ng kahusayan at pagkakapareho sa pagsasalin ng mga malalaking stream ng mga teksto, pangunahin ang siyentipiko at teknikal. Ang mga SMP na tumatakbo sa isang pang-industriya na antas ay umaasa sa malalaking terminolohiyang database at karaniwang nangangailangan ng paglahok ng isang tao bilang isang pre-, inter- o post-editor. Ang mga modernong SMP, lalo na ang mga nakabatay sa mga base ng kaalaman sa isang partikular na lugar ng paksa, ay inuri bilang mga sistema ng artificial intelligence (AI).
Ang mga pangunahing lugar ng paggamit ng MC
1. Sa mga serbisyo ng impormasyon ng sangay sa pagkakaroon ng isang malaking hanay o isang patuloy na stream ng mga mapagkukunan ng wikang banyaga. Kung ang mga SMP ay ginagamit upang maglabas ng impormasyon sa pagbibigay ng senyas, hindi kinakailangan ang post-editing.
2. Sa malalaking internasyonal na organisasyon na nakikitungo sa isang multilinggwal na polythematic na hanay ng mga dokumento. Ito ang mga kondisyon sa pagtatrabaho sa Commission of the European Communities sa Brussels, kung saan ang lahat ng dokumentasyon ay dapat lumabas nang sabay-sabay sa siyam na wikang gumagana. Dahil mataas ang mga kinakailangan sa pagsasalin dito, ang MT ay nangangailangan ng post-editing.
3. Sa mga serbisyong nagsasalin ng teknikal na dokumentasyong kasama ng mga na-export na produkto. Hindi makayanan ng mga tagasalin ang malawak na dokumentasyon sa loob ng kinakailangang takdang panahon (halimbawa, ang mga detalye para sa sasakyang panghimpapawid at iba pang kumplikadong bagay ay maaaring tumagal ng hanggang 10,000 o higit pang mga pahina). Ang istraktura at wika ng teknikal na dokumentasyon ay medyo pamantayan, na nagpapadali sa MT at kahit na ginagawa itong mas kanais-nais kaysa sa manu-manong pagsasalin, dahil ginagarantiyahan nito ang isang pare-parehong istilo.
ang buong array. Dahil dapat kumpleto at tumpak ang pagsasalin ng mga pagtutukoy, kailangang ma-post-edit ang mga produkto ng MT.
4. Para sa sabay-sabay o halos sabay-sabay na pagsasalin ng ilang patuloy na daloy ng mga mensahe ng parehong uri. Ganito ang daloy ng mga ulat ng panahon sa Canada, na dapat lumabas nang sabay-sabay sa Ingles at Pranses.
Bilang karagdagan sa praktikal na pangangailangan ng mundo ng negosyo para sa SMP, mayroon ding mga purong pang-agham na insentibo para sa pagbuo ng MT: ang matatag na eksperimentong MT system ay isang eksperimentong larangan para sa pagsubok ng iba't ibang aspeto ng pangkalahatang teorya ng pag-unawa, komunikasyon sa pagsasalita, pagbabago ng impormasyon, pati na rin para sa paglikha ng bago, mas mahusay na mga modelo ng MT mismo. .
Mula sa punto ng view ng sukat at antas ng pag-unlad, ang NSR ay maaaring nahahati sa tatlong pangunahing klase: pang-industriya, pagbuo at pang-eksperimentong.
Suporta sa wika ng mga sistema ng pagsasalin ng makina
Ang proseso ng MT ay isang pagkakasunud-sunod ng mga pagbabagong inilapat sa input text at ginagawa itong isang teksto sa output na wika, na dapat ay lubos na muling likhain ang kahulugan at, bilang panuntunan, ang istraktura ng pinagmulang teksto, ngunit sa pamamagitan ng output na wika. . Kasama sa suportang pangwika ng SMP ang buong complex ng wastong linguistic, metalinguistic at tinatawag na "extralinguistic" na kaalaman na ginagamit sa naturang pagbabago.
Sa classical na SMP, na nagsasagawa ng hindi direktang pagsasalin ng mga indibidwal na pangungusap (phrase-by-phrase translation), ang bawat pangungusap ay dumadaan sa pagkakasunud-sunod ng mga pagbabagong binubuo ng tatlong bahagi (yugto): pagsusuri -> paglilipat (interlingual na operasyon) -> synthesis. Sa turn, ang bawat isa sa mga yugtong ito ay isang medyo kumplikadong sistema ng mga intermediate na pagbabago.
Ang layunin ng yugto ng pagsusuri ay bumuo ng isang istrukturang paglalarawan (intermediate na representasyon, panloob na representasyon) ng input na pangungusap, | Ang gawain ng yugto ng paglilipat (aktwal na pagsasalin) ay upang baguhin ang istruktura ng input na pangungusap sa panloob na istruktura ng output na pangungusap. Kasama rin sa yugtong ito ang pagpapalit ng mga lexeme ng input na wika sa mga katumbas ng pagsasalin nito (mga lexical interlanguage transformations). Ang layunin ng yugto ng synthesis ay bumuo ng tamang pangungusap sa output na wika batay sa istrukturang nakuha bilang resulta ng pagsusuri.
Ang suportang pangwika ng karaniwang modernong NSR ay kinabibilangan ng:
1) mga diksyunaryo;
2) gramatika;
3) pormal na mga intermediate na representasyon ng mga yunit ng pagsusuri sa iba't ibang yugto ng pagbabago.
Bilang karagdagan sa mga karaniwan, ang ilang hindi karaniwang mga bahagi ay maaari ding naroroon sa mga indibidwal na SMP. Kaya, ang kaalaman ng eksperto tungkol sa software ay maaaring tukuyin gamit ang mga espesyal na konseptwal na network, at hindi sa anyo ng mga diksyunaryo at grammar.
Ang mga mekanismo (algorithms, procedures) para sa pagpapatakbo gamit ang mga kasalukuyang diksyunaryo, grammar at structural representation ay tinutukoy bilang mathematical at algorithmic na suporta ng SMP.
Ang isa sa mga kinakailangang kinakailangan para sa mga modernong SMP ay mataas na modularity. Mula sa isang makabuluhang pananaw sa linggwistika, nangangahulugan ito na ang pagsusuri at ang mga prosesong sumusunod dito ay binuo na isinasaalang-alang ang teorya ng mga antas ng linggwistika. Sa pagsasagawa ng paglikha ng isang SMP, ang mga sumusunod na antas ng pagsusuri ay nakikilala:
Pre-syntactic analysis (kabilang dito ang morphological analysis - MorfAn, pagsusuri ng mga parirala, hindi kilalang mga elemento ng teksto, atbp.);
Syntactic analysis SinAn (bumubuo ng syntactic na representasyon ng isang pangungusap, o SinP); sa loob ng mga limitasyon nito, maaaring makilala ang isang bilang ng mga sublevel, na nagbibigay ng pagsusuri ng iba't ibang uri ng syntactic unit;
Semantic analysis SemAn, o logical-semantic analysis (bumubuo ng argument-predicate structure ng mga pahayag o ibang uri ng semantic
presentasyon ng mga pangungusap at teksto);
Pagsusuri ng konsepto (pagsusuri sa mga tuntunin ng mga istrukturang pangkonsepto na nagpapakita ng mga semantika ng software). Ang antas ng pagsusuri na ito ay ginagamit sa mga SMP na nagta-target ng napakalimitadong software. Sa katunayan, ang konseptong istruktura ay isang projection ng software schema papunta sa linguistic structures, madalas hindi kahit na semantic, ngunit syntactic. Para lamang sa napakakitid na software at limitadong klase ng mga teksto ang istrukturang konseptwal ay tumutugma sa semantiko; sa pangkalahatang kaso, hindi dapat magkaroon ng kumpletong tugma, dahil ang teksto ay mas detalyado kaysa sa alinman
mga konseptwal na diagram.
Ang synthesis ay theoretically dumadaan sa parehong mga antas ng pagsusuri, ngunit sa kabaligtaran ng direksyon. Sa mga gumaganang sistema, ang landas lamang mula sa SynP hanggang sa word chain ng output na pangungusap ang karaniwang ipinapatupad.
Ang linguistic na pagkakaiba sa pagitan ng iba't ibang antas ay maaari ding maipakita sa pagkakaiba sa pagitan ng mga pormal na paraan na ginagamit sa kaukulang mga paglalarawan (ang hanay ng mga paraan na ito ay tinukoy para sa bawat antas nang hiwalay). Sa pagsasagawa, ang linguistic na paraan ng MorphAn ay madalas na tinutukoy nang hiwalay at ang mga paraan ng SinAn at SemAn ay pinagsama. Ngunit ang pagkakaiba-iba ng mga antas ay maaari lamang manatiling makabuluhan kung sila ay gagamit ng isang pormalismo sa kanilang mga paglalarawan na angkop para sa paglalahad ng impormasyon sa lahat ng mga natatanging antas.
Mula sa teknikal na pananaw, ang modularity ng suportang pangwika ay nangangahulugan ng paghihiwalay ng istrukturang representasyon ng mga parirala at teksto (bilang kasalukuyang, pansamantalang kaalaman tungkol sa teksto) mula sa "permanenteng" kaalaman tungkol sa wika, gayundin ang kaalaman sa wika mula sa kaalaman sa software; paghihiwalay ng mga diksyunaryo mula sa grammar, grammar mula sa mga algorithm para sa kanilang pagproseso, mga algorithm mula sa mga programa. Ang mga tiyak na ratio ng iba't ibang mga module ng system (mga diksyunaryo ng grammar, grammar - algorithm, algorithm - mga programa, deklaratibo - kaalaman sa pamamaraan, atbp.), kabilang ang pamamahagi ng data ng linguistic ayon sa mga antas, ay ang pangunahing bagay na tumutukoy sa mga detalye ng SMP.
Mga diksyunaryo. Karaniwang monolingual ang mga diksyunaryo ng pagsusuri. Dapat naglalaman ang mga ito ng lahat ng impormasyong kinakailangan upang maisama ang isang ibinigay na lexical unit (LE) sa representasyong istruktura. Madalas nilang pinaghihiwalay ang mga diksyunaryo ng mga base (na may morphological at syntactic na impormasyon: bahagi ng pananalita, uri ng inflection, subclass na nagpapakilala sa syntactic na pag-uugali ng LU, atbp.) at mga diksyunaryo ng mga kahulugan ng salita na naglalaman ng semantic at conceptual na impormasyon: semantic class LU, semantic hopes ( valencies), kundisyon ang kanilang pagpapatupad sa isang parirala, atbp.
Sa maraming sistema, pinaghihiwalay ang mga diksyunaryo ng karaniwan at terminolohikal na bokabularyo. Ang ganitong paghihiwalay ay ginagawang posible, kapag lumipat sa mga teksto ng ibang paksa, na limitado lamang sa pamamagitan ng pagpapalit ng mga terminolohikal na diksyonaryo. Ang mga diksyunaryo ng mga kumplikadong LU (turnovers, constructions) ay karaniwang bumubuo ng isang hiwalay na hanay, ang impormasyon ng diksyunaryo sa mga ito ay nagpapahiwatig kung paano "nakolekta" ang naturang yunit sa panahon ng pagsusuri. Ang bahagi ng impormasyon sa bokabularyo ay maaaring tukuyin sa paraan ng pamamaraan, halimbawa, ang mga polysemantic na salita ay maaaring iugnay sa mga algorithm para sa paglutas ng kaukulang uri ng kalabuan. Ang mga bagong uri ng organisasyon ng impormasyon sa bokabularyo para sa mga layunin ng MT ay inaalok ng tinatawag na "lexical knowledge bases". Ang pagkakaroon ng magkakaibang impormasyon tungkol sa salita (tinatawag na lexical na uniberso ng salita) ay nagdadala ng gayong diksyunaryo na mas malapit sa isang encyclopedia kaysa sa mga tradisyonal na linguistic na mga diksyunaryo.
Mga gramatika at algorithm. Tinutukoy ng gramatika at bokabularyo ang modelo ng linggwistika, na bumubuo sa karamihan ng data ng linggwistika. Ang mga algorithm para sa kanilang pagpoproseso, ibig sabihin, mga ugnayan sa mga unit ng teksto, ay tinutukoy bilang ang mathematical at algorithmic na suporta ng system.
Ang paghihiwalay ng mga grammar at algorithm ay mahalaga sa praktikal na kahulugan dahil pinapayagan ka nitong baguhin ang mga panuntunan sa grammar nang hindi binabago ang mga algorithm (at, nang naaayon, mga programa) na gumagana sa mga grammar. Ngunit ang gayong paghihiwalay ay hindi laging posible. Kaya, para sa isang sistemang may procedural specification ng grammar, at higit pa sa isang procedural na representasyon ng impormasyon sa diksyunaryo, ang naturang dibisyon ay hindi nauugnay. Ang mga algorithm sa paggawa ng desisyon sa kaso ng hindi sapat (incompleteness of input data) o redundant (analysis variant) na impormasyon ay mas empirical, ang kanilang pagbabalangkas ay nangangailangan ng linguistic intuition. Ang pagtatakda ng isang karaniwang control algorithm na kumokontrol sa pagkakasunud-sunod ng pagtawag sa iba't ibang grammar (kung may ilan sa mga ito sa isang system) ay nangangailangan din ng linguistic na pagbibigay-katwiran. Gayunpaman, ang kasalukuyang kalakaran ay ang paghiwalayin ang mga gramatika mula sa mga algorithm upang ang lahat ng makabuluhang impormasyon sa wika ay maibigay sa static na anyo ng mga grammar, at upang gawing abstract ang mga algorithm na maaari silang mag-invoke at magproseso ng iba't ibang mga modelo ng linguistic.
Ang paghihiwalay ng mga grammar at algorithm ay pinakamalinaw na nakikita sa mga system na gumagana sa context-free grammars (CSGs), kung saan ang modelo ng wika ay isang grammar na may limitadong bilang ng mga estado, at ang algorithm ay dapat magbigay ng isang arbitraryong kinuhang pangungusap isang puno ng kanyang derivation ayon sa mga tuntunin ng gramatika, at kung mayroong ilang mga naturang derivasyon, ilista ang mga ito. Ang ganitong algorithm, na isang pormal (sa matematikal na kahulugan) na sistema, ay tinatawag na isang analyzer. Ang paglalarawan ng gramatika ay nagsisilbi para sa analyzer, pagkakaroon ng universality, ang parehong input bilang nasuri na pangungusap. Ang mga parser ay binuo para sa mga klase ng grammar, bagama't ang pagsasaalang-alang sa mga partikular na feature ng grammar ay maaaring magpapataas ng kahusayan ng parser.
Ang mga gramatika ng antas ng syntactic ay ang pinaka-binuo na bahagi kapwa mula sa punto ng view ng linggwistika at mula sa punto ng view ng kanilang probisyon na may mga pormalismo.
Mga pangunahing uri ng grammar at algorithm na nagpapatupad ng mga ito:
Inaayos ng chain grammar ang pagkakasunud-sunod ng mga elemento, ibig sabihin, mga linear na istruktura ng pangungusap, na tumutukoy sa mga ito sa mga tuntunin ng mga klase ng gramatika ng mga salita (artikulo + pangngalan + pang-ukol) o sa mga tuntunin ng mga functional na elemento (paksa + panaguri);
Ang gramatika ng mga nasasakupan (o ang gramatika ng mga direktang nasasakupan - NSG) ay kumukuha ng linguistic na impormasyon tungkol sa pagpapangkat ng mga elemento ng gramatika, halimbawa, isang pariralang pangngalan (binubuo ng isang pangngalan, isang artikulo,
pang-uri at iba pang mga modifier), pangkat ng pang-ukol (binubuo ng pang-ukol at pariralang pangngalan), atbp. hanggang sa antas ng pangungusap. Ang grammar ay binuo bilang isang set ng mga tuntunin sa pagpapalit, o isang calculus ng mga produksyon ng anyong A->B...C. NSG
ay mga gramatika ng isang generative na uri at maaaring magamit kapwa sa pagsusuri at sa synthesis: ang mga pangungusap sa wika ay nabuo sa pamamagitan ng paulit-ulit na paggamit ng mga naturang tuntunin;
Tinutukoy ng dependency grammar (GZ) ang hierarchy ng mga relasyon sa pagitan ng mga elemento ng isang pangungusap (tinutukoy ng pangunahing salita ang anyo ng mga dependent). Ang analyzer sa GZ ay batay sa pagkakakilanlan ng mga masters at kanilang mga dependent (servants). Ang pangunahing bagay sa pangungusap ay ang pandiwa sa personal na anyo, dahil tinutukoy nito ang bilang at likas na katangian ng mga dependent na pangngalan. Ang diskarte sa pagsusuri sa GC ay top-down: ang mga master ay nakikilala muna, pagkatapos ay ang mga tagapaglingkod, o bottom-up: ang mga master ay nakikilala sa pamamagitan ng proseso ng pagpapalit;
Ang Bar-Hillel categorical grammar ay isang bersyon ng grammar ng mga nasasakupan, mayroon lamang itong dalawang kategorya - mga pangungusap S at pangalan n. Ang natitira ay tinukoy sa mga tuntunin ng kakayahang isama sa mga pangunahing ito sa istruktura ng NN. Kaya, ang pandiwang pandiwa ay tinukoy bilang n\S, dahil ito ay pinagsama sa pangalan at sa kaliwa nito, na bumubuo ng isang S pangungusap.
Mayroong maraming mga paraan upang isaalang-alang ang mga kondisyon sa konteksto: mga gramatika ng metamorphosis at ang kanilang mga variant. Ang lahat ng mga ito ay mga extension ng CF-rules. Sa mga pangkalahatang termino, nangangahulugan ito na ang mga panuntunan sa produksyon ay muling isinulat tulad ng sumusunod: A [a]-> B[b], ..., C [c], kung saan ang mga kundisyon, pagsubok, tagubilin, atbp., na nagpapalawak sa orihinal na mahigpit na mga panuntunan at pagbibigay ng flexibility at kahusayan ng gramatika.
Sa grammar ng mga pangkalahatang bahagi-TCS, ipinakilala ang mga meta-rules, na isang generalization ng mga regularidad ng mga patakaran ng CS1.
Ang mga grammar ng extended transition networks-CPN ay nagbibigay ng mga pagsubok at kundisyon para sa mga arc, pati na rin ang mga tagubilin na dapat isagawa kung ang pagsusuri ay sumasabay sa arc na ito. Sa iba't ibang mga pagbabago ng CPN, ang mga timbang ay maaaring italaga sa mga arko, at pagkatapos ay maaaring piliin ng analyzer ang landas na may pinakamataas na timbang. Maaaring hatiin ang mga kundisyon sa dalawang bahagi: walang konteksto at sensitibo sa konteksto.
Ang iba't ibang RSPG ay cascade RSPG. Ang cascade ay isang RSP na nilagyan ng aksyon na 1shshsh1. Ang pagkilos na ito ay nagiging sanhi ng paghinto ng proseso sa cascade na ito, pag-imbak ng kasalukuyang impormasyon ng configuration sa stack, at tumalon sa mas malalim na cascade at pagkatapos ay bumalik sa orihinal nitong estado. Ang CPN ay may ilang mga tampok ng pagbabagong gramatika. Maaari rin itong gamitin bilang isang sistema ng pagbuo.
Ang paraan ng pagsusuri gamit ang isang scheme ng graph ay nagbibigay-daan sa iyo upang i-save ang mga bahagyang resulta at ipakita ang mga pagpipilian sa pagsusuri.
Ang isang bago at agad na sikat na paraan ng paglalarawan ng gramatika ay ang lexsho-functional grammar (LFG). Tinatanggal nito ang pangangailangan para sa mga tuntunin sa pagbabago. Bagama't ang LFG ay nakabatay sa QSG, ang mga kondisyon ng pagsubok sa loob nito ay hiwalay sa mga tuntunin ng pagpapalit at "nalutas" bilang mga autonomous equation.
Kinakatawan ng mga unification grammar (UG) ang susunod na yugto ng generalization ng modelo ng pagsusuri pagkatapos ng mga graph-scheme: nagagawa nilang isama ang mga grammar ng iba't ibang uri. Ang CG ay naglalaman ng apat na bahagi: isang unification package, isang interpreter para sa mga panuntunan at lexical na paglalarawan, mga programa para sa pagproseso ng mga direktang graph, at isang graph-scheme analyzer. Pinagsasama ng mga CG ang mga tuntunin sa gramatika sa mga paglalarawan ng diksyunaryo, mga syntactic valencies na may mga semantiko.
Ang pangunahing problema ng anumang sistema ng pagsusuri ng NL ay ang problema sa pagpili ng mga opsyon. Upang malutas ito, ang mga gramatika ng antas ng syntactic ay pupunan ng mga auxiliary na grammar at mga pamamaraan para sa pag-parse ng mga kumplikadong sitwasyon. Gumagamit ang mga NN-grammar ng filter at heuristic na pamamaraan. Ang paraan ng filter ay na sa una ang lahat ng mga variant ng pagsusuri ng pangungusap ay natatanggap, at pagkatapos ay ang mga hindi nakakatugon sa isang tiyak na sistema ng mga kundisyon ng filter ay tinatanggihan. Sa simula pa lang, ang heuristic na pamamaraan ay bumubuo lamang ng isang bahagi ng mga opsyon na mas kapani-paniwala sa mga tuntunin ng ibinigay na pamantayan. Ang paggamit ng mga timbang upang pumili ng mga opsyon ay isang halimbawa ng paggamit ng mga heuristic na pamamaraan sa pagsusuri.
Ang antas ng semantiko ay hindi gaanong binibigyan ng teorya at praktikal na mga pag-unlad. Ang tradisyunal na gawain ng semantics ay ang pag-alis ng kalabuan ng syntactic analysis - istruktura at lexical. Para dito, ginagamit ang apparatus ng mga piling paghihigpit, na nakatali sa balangkas ng mga pangungusap, ibig sabihin, umaangkop sa modelong sintaktik. Ang pinakakaraniwang uri ng SemAn ay batay sa tinatawag na case grammars. Ang grammar ay batay sa konsepto ng malalim, o semantiko, kaso. Ang case frame ng isang pandiwa ay isang extension ng konsepto ng valence: ito ay isang set ng semantic relations na maaaring (mandatoryo o opsyonal) samahan ang pandiwa at ang mga pagkakaiba-iba nito sa teksto. Sa loob ng parehong wika, ang parehong malalim na kaso ay natanto ng iba't ibang mga mababaw na anyo ng prepositional-case. Ang mga malalim na kaso, sa prinsipyo, ay nagbibigay-daan sa iyo na lumampas sa pangungusap, at ang pagpunta sa teksto ay nangangahulugang isang paglipat sa antas ng semantiko ng pagsusuri.
Dahil ang semantikong impormasyon, sa kaibahan sa syntactic na impormasyon na pangunahing nakabatay sa mga gramatika, ay pangunahing nakatuon sa mga diksyunaryo, ang mga grammar ay masinsinang binuo noong 1980s, na nagpapahintulot sa "lexicalization" ng mga CSG. Ang pagbuo ng mga gramatika batay sa pag-aaral ng mga katangian ng diskurso ay isinasagawa.
![I-bookmark at Ibahagi](https://s7.addthis.com/static/btn/v2/lg-share-en.gif)