Itzulpengintzarekin lotutako kontzeptuen azalpena [3.galdeketa]

28 04 2008

Artikulu honetan, hurrengo gaien inguruan arituko naiz, definizio zehatzak emanez: makina-itzulpengintza (machine translation), makinaz lagundutako itzulpengintza (machine aided translation), eduki eleanitzeko kudeaketa (multilingual content management) eta itzulpen-teknologia (translation technology).
Makina-itzulpengintza edo machine translationari dagokionez, askotan MT laburdura ere erabiltzen da horren inguruan aritzeko. Ordenagailu-linguistikaren arloaren barruko azpieremu bat da, eta lengoaia natural batetik besterako itzulpenak egiteko ordenagailu softwarea arabiltzen du.

Makinaz lagundutako itzulpengintza edo machine aided translation, CAT laburduraz ezaguna ere, itzulpengintza modu bat da. Gizakiak testuak itzultzen ditu ordenagailu-software delakoa erabiliz, itzulpengintza prozesua lagundu eta errezteko. Askotan CATari machine-assisted (makinaz lagunduta) esaten zaio.

Eduki eleanitzeko kudeaketa edo multilingual content management, hizkuntza ugaritan egindako itzulpengintzari dagokion definizioa da. Gaur egunean garrantzia handikoak dira horrelako testuak eta ahalik eta informazio gehien helaraztea ahalik eta hizkuntza gehiagotan da helburua.

Itzulpen-teknologia edo translation technology, hizkuntzen arteko teknologia automatiko eta simultaneoa. Momentuan momentuko ahozko itzulpenak egiten ditu, eta soinuez gain idatziak ere egin daitezke (titulu, azpitituloak etab. erabiliz)





MT sistema erabiliz egindako itzulpenak [3.galdeketa]

16 04 2008

Honako hauek dira MT sistemaren arabera egindako itzulpenen emaitzak:
1.- Hurbiltasun gutxiko hizkuntzen arteko itzulpena : Ingelesa - Gaztelaina : BBCko webguneko albiste bat, Instituto Cervantes-eko itzulpengintza zerbitzua erabiliz.
· Izenburuko akatsa aditza idazterakoan. Ingelesez: “Israel soldiers die in Gaza clash”. Gaztelainaz: “Dado de los soldados de Israel en el choque de Gaza”.
· Bigarren mailako izenburua idazterakoan, bi hiztegi arazo aurki daitezke. Inglesez: “Three injured in heavy clashes in the Gaza Strip“. Gaztelainaz: “Tres se han dañado en choques pesados en la tira de Gaza”
· Testua idazterakoan, aditzaren egituran akats bat aurki daiteke. Inglesez: “Four Hamas militants were also killed in the fighting”. Gaztelainaz: “Mataron a cuatro militantes de Hamas también en luchar”
· Testua idazterakoan, genero arazo bat agerian dago. Ingelesez: “The clashes took place near the border terminal”. Gaztelainaz: “Los choques ocurrieron cerca del terminal”
· Azkenengo paragrafoetan ere orden aldaketa larri bat ematen da, eta informazio falta bat ere ikus daiteke. Ingelesez: “Had destroyed a large area of agricultural land, knocking down olive and fruit trees”. Gaztelainaz: “Habían destruido un área grande de la región agrícola, golpeando abajo de árboles frutals de la aceituna y.”

2.- Hurbiltasun handiko bi hizkuntzen arteko itzulpena: Gaztelaina-Katalana : Katalunyako AVUI katalanez idatzitako egunkaritik hartutako artikulu baten itzulpena gaztelainera, Comprendium Translator itzulpengintza zerbitzua erabiliz.

Katalanez:

Setmana de la cultura catalana, a Madrid

Madrid acollirà a partir d’aquest dilluns la celebració de la Setmana de la Cultura Catalana, impulsada per la delegació de la Generalitat de Catalunya a la capital espanyola, l’Institut Ramon Llull i Caixa Catalunya.Madrid acollirà a partir d’aquest dilluns la celebració de la Setmana de la Cultura Catalana, impulsada per la delegació de la Generalitat de Catalunya a la capital espanyola, l’Institut Ramon Llull i Caixa Catalunya.

Entre els dies 21 i 28 d’abril s’organitzaran diverses activitats literàries i culturals a la capital espanyola amb la finalitat de promocionar-hi la cultura catalana i el dia de Sant Jordi.

La Setmana de la Cultura Catalana a Madrid, organitzada pel Centre Cultural Blanquerna i l’IRL, té la participació del Teatro Español, el Cercle Català i l’Escola Oficial d’Idiomes Jesús Maestro.

Gaztelainaz:

Madrid acogerá a partir de este lunes la celebración de la Semana de la Cultura Catalana, impulsada por la delegación de la Generalitat de Catalunya en la capital española, el Instituto Ramon Llull i Caixa Catalunya.Madrid acogerá a partir de este lunes la celebración de la Semana de la Cultura Catalana, impulsada por la delegación de la Generalitat de Catalunya en la capital española, el Instituto Ramon Llull i Caixa Catalunya.

Entre los días 21 y 28 de abril se organizarán diversas actividades literarias y culturales en la capital española con la finalidad de promocionar la cultura catalana y el día de Sant Jordi.

La Semana de la Cultura Catalana en Madrid, organizada por el Centro Cultural Blanquerna y el IRL, tiene la participación del Teatro Español, el Círculo Catalán y la Escuela Oficial de Idiomas Jesús Maestro.

Ondorio gisa esan beharra dago hurbiltasun handiko hizkuntzetan eginiko itzulpenak oso zorrotzak direla, akats gabekoak. Bestalde, hurbiltasun gutxiko hizkuntzen arteko itzulpenetan oso ohikoak dira akatsak: gramatikalak, ortografikoak, hitzen ordenarenak. . .





Itzulpengintzaren ezaugarri nagusienak FEMTIren arabera [3.galdeketa]

9 04 2008

FEMTIren arabera, honako hauek dira itzulpengintzaren ezaugarri nagusienak:

1.- Asimilazioa (barneratzea) : Asimilazioaren helburu nagusiena (itzulpengintzaren parte dena), organizaziotik kanpoko norbaitek idatzitako testu kopuru handi bat aurrera eramatea da; hizkuntza anitzetan (normalean).

2.- Zabalkuntza: bere xedea organizazioaren barnean ekoizitako dokumentuen itzulpena besteei helaraztea da.

3.- Komunikazioa: helbururik aipagarriena hizkuntza desberdinak hitz egiten dituzten pertsonen arteko elkarrizketak laguntzea da. Itzulpenen kalitatea altua izan behar da elkarrizketak zailtasun gabekoak izan daitezen; aportazio sintaktikoak eta hitz idiosinkratikoak izanda ere.





Hiru gaien azalpena [2.galdeketa]

29 03 2008

Artikulu honetan, eskatutako hiru gaien azalpenak jorratuko ditut:

Lehendabizi, SEPL (Sociedad Española para el Procesamiento del Lenguaje Natural) elkarteak aztertzen duen gai errekurrente bati buruz arituko naiz: “testu eleanitzen topaketarako teknika linguistikoak”. Azkenaldian, topaketa sistemak garrantzia handia lortu dute ordenagailuen ohiko erabileran. Giza-lengoaiaren elkarte honek, anbiguetate lexikoaren, aldaketa terminologikoaren eta translinguismoaren arazoak lantzen ditu. Era berean, dokumentuen ordenazio eta berreskurapenean teknika linguistikoak duten eginkizuna ere badu aztergai SEPL-ek. Helbururik garrantzitsuena marko berri bat sortzea da, sistema interaktiboen ebaluaziorako. Horrela, sistemak informazio eleanitza berreskuratzeko gauza izango da, eta erabiltzaileentzat ere garrantzia handikoa izan daiteke.

Bigarrenez, Alemaniako DFKI-LT ikerketa-guneak “elkar operatzen duten baliabide eta sistemetarako azpiegitura linguistikoa” (LIRICS) bezala definitzen den gaia lantzen du. LIRICS programa honek gaur egungo informazio eta komunikazio gizarte honen beharrak aztertzen ditu; globalizazio eta lokalizazioak komunikazio multilinguistikoa behar baitute, estandarizazio berri baterako behar handi bat sortuz. Ezinbestekoa da, era berean; standar eta eraldaketa horien garapena bertatik bertara ezagutzea. Hortaz, LIRICS proiektuak ISO kalitate standarren ezarpena erraztu nahi ditu Lengoaia-teknologiaren esparruan.

Hirugarrenez, eta bukatzeko; Irlandako National Centre for Language Technology ikerketa zentruak “galtzeko arriskuan dauden hizkuntzak” gai erabat interesgarria lantzen du. Euren esanetan, munduko hizkuntza guztien %90a baino gehiago galtzeko zorian edo arriskuan daude; 100 urteko epean. Horietako asko eta asko ez dira inoiz idatzi eta literaturan guztiz ezezagunak dira. Era berean, hizkuntza batzuk 20 hiztun baino gutxiago dituzte. Ezin daiteke ukatu hizkuntza hauek ere munduaren ondarearen parte direla, eta haien galera kultura eta zientzia aldetik izugarrizko galera izango litzateke. Nazioarteko elkarteek dioten arabera, zerbait egitea beharrezkoa da, eta National Centre for Language Technology ikerketa gune hau bi ildotan dihardu lanean: hizkuntza irakasteko moduak eta hizkuntza-dokumentazioa garatu.





Inbestigazio Gai Berriak (Recent Research Topics) [2.galdeketa]

27 03 2008

Artikulu honetan, Giza Lengoaiaren Ikerkuntzan azkenaldian gehien jorratzen diren gaiak aipatuko dira:

Ikerketa-guneei dagokienez, honako hauek dira aipagarrienak:

- Alemaniako DFKI - LT (Language Technology Laboratory-Lengoaiaren Teknologia Laborategia)-n honako gaiak lantzen dira aspaldian:

· Dokumentazio-aurkibideak inglesez eta alemanez.

· Informazio prozesamendua hainbat hizkuntzatan (Txinatarra + Japoniera).

· Hizkuntza-azterketa eta estruktura baliabideen konbinazioa.

· Informazioaren estrukturalizazio eta bisualizazio automatikoa.

- Euskal Herriko IXA TALDEAk hurrengo gaietan murgilduta dabil aspaldian:

· Semantikoki etiketatutako corpusa euskaraz.

· Emozioen errekonozimendu mixtoa euskaraz.

· Euskal hizkuntzaren atlas linguistiko bat sortzea.

· Baliabide linguistiko eta tresnen ustartzea XML erabiliz.

- EEBBetako California estatuko STANDFORD NATURAL LANGUAGE PROCESIG GROUP esparru ugaritan dihardu:

· Ikerketa basikoa linguistika-konputazionalean.

· Gramatika indukzioa.

· Hitzen esanahiaren argitzea/desanbiguazioa.

· Galderen erantzun automatizatua.

Ikerketa-sarerik aipagarrienetan hurrengo gaiak lantzen dira:

- European Network of Excellence in Human Language Technologies (ELSNET) Giza-lengoaiaren teknologiarako Europako Sarea, giza-lengoaiaren ikerkuntzaren inguruan honako helburuak lortzeko sortutako plataforma da:

· Orainaren analisiak egin eta etorkizuneko ikuspegiak landu.

· Jakintza eta esperientzia landu, konpartitu eta ustiatu.

· Ekintza innobatzaileak bideratu.

· Ingurugiro eta azterketa bateratu bat sustatu.

· Giza-lengoaiaren teknologiak bateratu Europako ikerkuntza eta garapena bideratuz.

Elkarteen artean, Espainiako SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL-SEPLN ere garrantzia handikoa da; eta honako gaiak jorratzen ditu:

· Anbiguetate lexikoaren konponketa.

· Zorroztasun handiko informazioa berreskuratzea.

· Etiketazio eta desanbiguazio morfosintaktikoa gazteleran.

· Multilinguismoa lantzeko teknika linguistikoak.

· Ezagutza linguistikoa desanbiguazio semantikoa bideratzeko.





Giza-lengoaia teknologiarako ikerkuntza guneak Europan [1.galdeketa]

17 03 2008

Honako hauek dira Europa mailako ikerkuntza gunerik garrantzitsuenetarikoak:

· Edinburgoko Lengoiaren ikerkuntzarako taldea

http://www.ltg.ed.ac.uk/

· Finlandiako Lengoaiaren ikerkuntzarako dokumentazio-zentroa

http://www.ling.helsinki.fi/filt/info/index-en.shtml

· Austriako ikerkuntza gunea

http://www.ofai.at/research/nlu/





Hans Uszkoreit-i buruz [1.galdeketa]

12 03 2008

Hans Uszkoreit, Saarland-eko Unibertsitatean Linguistika Konputazionaleko irakaslea izateaz gain, zuzendari zientifikoa ere bada German Research Center for Artificial Intelligence (DFKI) ikerketa guneko laborategian. Era berean, Computer Science Department-eko irakaslea ere bada. Uszkoreit-ek Linguistika eta Konputagailuen Zientzia ikasi zituen Berlineko Unibertsitate Teknikoan, baita Texas-eko(EEBB) Unibertsitatean ere. EEBBetan egon zen bitartean, itzulpengintza proiektu askotan murgidu zen.

Alemaniara bueltan, Stuttgart-eko IBM enpesan lana egiteari ekin zion. Horren ondoren, Saarland-eko Unibertsitatean lanean hasteko eskaintza onartu zuen eta Linguistika eta Fonetika Konputazionalaren departamentuan hasi zen.

Honetaz gain European Academy of Sciences, European Language Resources Association (ELRA)ko kidea da eta XtraMind Technologies GmbH eta beste hainbat elkarteko sortzaileetako bat da.

Bere publikaziorik garrantsitzuenen artean honako hauek aipagarri dira:

· Uszkoreit, H. (1982), “German Word Order and Constituent Structure in GPSG” In: Flickinger, Macken and Wiegand (Hrsg.) Proceedings of the West Coast Conference on Formal Linguistics, Stanford, Januar 1982.

· Shieber, S., S. Stucky, H. Uszkoreit and J. Robinson (1983) “Formal Constraints on Metarules” In: Proceedings of the 1983 Annual Meeting of the Association of Computational Linguistics, Cambridge, Massachusetts.

· Uszkoreit, H. “A Framework for Processing Partially Free Word Order” (1983), In: Proceedings of the 1983 Annual Meeting of the Association of Computational Linguistics, Cambridge, Massachusetts.

· Uszkoreit, H. (1986): “Linear Precedence in Discontinous Constituents.” In: Syntax and Semantics 20, Academic Press, 1986.

Hans Uszkoreit





Zer da lengoaia-teknologia? [1.galdeketa]

12 03 2008

Giza-lengoaiaren teknologiak, gure munduan existitzen den informazio-transmisiorik konplexuenean parte hartzen duten ezagutza eta medioen multzoa da: giza-lengoaia. Giza-lengoaia duela urte askotik hona izan da ikasketa askoren aztergai, dizsiplina eta ikuspuntu anitz ugaritik. Ordenagailuaren erabilpenak bere ikerketa bideratu, sustatu eta garatu zuen, eta inbestigazio-eremu asko eta asko zabaldu zituen. Ordenagailuaren inguruan, hain zuzen ere, lengoaia-teknologiak sortu eta garatu ziren.

Lengoaiaren teknologiek, ahozkoak eta idatzizkoak, bi lengoaia-mota hauetan sortzen eta prosezatzen dituzte adierazpenak. Zatiketa hau izanda ere, lengoaiak baditu ahozkotasuna eta textuaren arteko aspektu komunak: hiztegiak, gramatikak etab.

Bestalde, lengoaia-teknologiak ez daitezke mugatu bakarrik hizketa edo testu teknologietara. Teknologia horien artean, aurki ditzakegu, esaterako, ezagutza-lengoaiarekin lotuta daudenak. Horrez gain, giza-lengoaiak beste komunikazio modu batzuk ere baditu. Adibidez, hizketa gorputz eta aurpegi-keinuekin konbinatzen da, testu digitalak irudi etasoinuak dituzten bezala. Horrela, lengoiaia-teknologiek komunikazio multimodal eta dokumentuen prosezamentua bideratzen duten teknologia asko dituzte.





XMLari buruz

7 02 2008

XML dokumentu batek bi egitura ditu, bata logikoa eta beste fisikoa. Fisikoki, dokumentua entitate izeneko unitateetan banatuta dago, dokumentu bakoitza “erroa” (root) izeneko entitate batekin hasten delarik. Entitate batek beste bati erreferentzia egin diezaioke, hau dokumentura gehitzen delarik. Logikoki, dokumentua deklarazioz, elementuz, komentarioz, karaktereen erreferentziez eta prozesamentu aginduez osatuta dago, bakoitzak bere marka duelarik. Bi egitura hauek, fisikoak eta logikoa, era egokian etorri behar dute bat.

XML dokumentuak bi taldetan banatzen dira, ongi eratuak eta baliozkoak.

    * Ongi eratuak: DTD batean (Documente Type Definition) finkatatutako elementuen menpe egon gabe erregela sintaktikoei buruzko espezifikazio guztiak betetzen dituzten dokumentuei deritze.

    * Baliozkoak: ongi eratuta egoteaz gain, DTD batek determinatutako egitura eta semantika bat jarraitu behar dute.

Hona hemen adibide errez bat:

    <?xml version=” 1.0 ” encoding=” UTF-8 ” standalone= ” yes “?>
    <fitxa>
    <Izena> Itxaso </Izena>
    <abizena> Goitia </abizen>
    <helbidea> Aker kalea, 17 </helbidea>
    </fitxa>

Ikus leen lerroa. Lerro honetatik aurrera dagoen kodea XML dela adierazten du.

· Informazio iturriak:

· Euskarazko Wikipedia. http://eu.wikipedia.org Kontsulta-eguna eta ordua:      2008-02-07; 17:00

· XML gida-programazio euskalduna sustatzen. http://www.blogak.com/programatzen   Kontsulta-eguna eta ordua: 2008-02-07; 17:00





Hipertestu eta hipermedio

30 01 2008

Aurreko artikulutan aipatu bezala, hipertestu eta hipermedio kontzeptuak bete-betean daude literaturari lotuta. Hipertestua testu aberatsa da, nolabaiteko lotura eta askeak diren testuek osatzen dutena. Hipermedioa, era berean; hipertestuaren ezaugarriak izateaz gain, testuak eta irudiak ere uztartzen ditu bere baitan: multimediaren adibide argia. Antzinatean agertu ziren, garai klasikoetan lan epikoak antzezterakoan hipermediotasunaren ezaugarriak ageriak baitira: dantza, antzezpena, ahozkotasuna, musika. . .

Historian gainbehera prosezu bat sufritu zuten hipertestualitateak eta hipermedioak galtzear egon zirelako. Halere, teknologia berriek bere berreskurapena bideratu dute, batez ere informatikari esker. Izan ere, internet-a izugarrizko pausua izan da ahozkotasuna, testuak eta irudiak batera uztartzeko. Hona hemen testua, hipertestua eta hipermedioaren adibide argiak gaur egungo gre gizartean:

TESTUA –> Gehienez bi ideietan oinartitzen den dokumentua, era birtual eta linealean idatzita: ordenagailuko testu bat(word, excell)

HIPERTESTUA –> Linealak ez diren testuen arteko lotura birtuala: bilatzaile bateko emaitza

HIPERMEDIOA –> Testu, irudi eta soinuak batzen dituen euskarri birtuala: hiztegi entziklopedikoa, wikipedia etab.

· Informazio-iturria:  Literatura e hipertexto. Carlos Moreno Hernández. Kontsulta-eguna: 2008-01-30 Ordua: 12:50