20.02.2024
Meta kompaniyasi 204 ta til bilan ishlaydigan matn tarjimasining yagona tizimini ishlab chiqdi va ochiq ommaga eʼlon qildi. Tizim bitta tildan ikkinchisiga toʻgʻridan toʻgʻri, ingliz yoki boshqa vositachi tillardan foydalanmagan holda tarjima qiladi. Bu algoritm haqidagi maqola Meta AI saytida, modelning oʻzi esa GitHubʼda eʼlon qilingan.
Koʻplab mashinaviy tarjima tizimlari til juftliklari uchun, masalan, rus tilidan ingliz tiliga tarjima qilishda alohida modellarni ishlatadi. Shuningdek, ingliz tili undagi matnlar hajmi katta boʻlgani uchun til juftliklari oʻrtasida vositachi til sifatida ishlatiladi. Shu sababli bir tomondan tarjima modellarini oʻrganish uchun manba koʻp boʻlsa, boshqa tomondan tarjimadagi noaniqlik va xatolar koʻpayishidan qochib boʻlmaydi.
Lekin koʻp tilli va o‘rtadagi vositachi tilni ishlatmaydigan tarjima modellari ham bor, ular bir vaqtning oʻzida bir nechta, baʼzan oʻnlab tillar bilan ishlashi mumkin. 2020-yilda shunday tizimni M2M nomi bilan Facebook AI (hozirda Meta AI) dasturchilari ishlab chiqqan edi, oʻshanda u 100 ta tilni qoʻllab-quvvatlardi. 2022-yilning boshida kompaniya No Language Left Behind (NLLB) loyihasini eʼlon qildi, uning doirasida mashina tarjimasining yuzlab tillarni qoʻllab-quvvatlaydigan va kam resursli tillarni oʻrganishga moslashtirilgan universal modeli ishlab chiqilishi koʻzda tutilgan edi.
Meta AI tadqiqotchi va dasturchilari AQSHning Berkli shahridagi Kaliforniya hamda Jon Hopkins universitetlaridagi hamkasblari bilan birgalikda 204 til oʻrtasida toʻgʻridan toʻgʻri tarjima qiladigan NLLB-200 koʻp tilli modeli va shuncha tilli FLORES-200 maʼlumotlar omborini taqdim qildi.
Koʻplab katta til modellari singari NLLB-200 internetdan toʻplangan ulkan hajmli maʼlumotlar bilan oʻqitilgan. Lekin boshida dasturchilar Vikipediyadagi ingliz tilidan 39 ta kam resursli tillarga professional tarjimonlar tomonidan oʻgirilgan, eng muhim sahifalardagi gaplar kiritilgan NLLB-Seed maʼlumotlar omborini toʻpladi. Bu maʼlumotlar omboriga bor-yoʻgʻi olti mingga yaqin gap kiritildi. Shu maʼlumotlar jamlanmasi boshqa tillar uchun mavjud maʼlumotlar ombori bilan birgalikda modelni oʻqitishni boshlash imkonini berdi.
Keyin kam resursli tillar uchun katta maʼlumotlar ombori yigʻishda mualliflar LASER (Language-Agnostic Sentence Representations) parallel korpus tizimini qoʻlladi. Tizim istalgan tildagi boshlangʻich jumlani olib, uni vektor maydonda shunday joylashtiradiki, turli tillardagi bir xil maʼnoli gaplar yaqin, turli maʼnolilari esa uzoq joylashadi:
LASERʼning birinchi versiyasi 2019-yilda eʼlon qilingan edi, yangi ishda esa bir nechta afzalliklar kiritilgan LASER3 ishlatildi. Shuningdek, tillar guruhlari uchun kodlovchilar alohida ajratildi, LSTM arxitekturasi Transformerʼga almashtirildi.
Tillar uchun keng maʼlumotlar omborini toʻplagan dasturchilar NLLB-200 yagona modelini ham bunga oʻrgatishdi. Uning ishini baholash uchun yana bir maʼlumotlar ombori — FLORES-200 yigʻildi. Uning yigʻilish prinsipi ham NLLB-Seedʼga oʻxshardi, lekin unda 204 tildagi 3000 ta soʻz boʻlib, tarjimani baholash uchun 40 mingdan ortiq til juftligi bor edi. Bu maʼlumot omborida tekshirish, uning avvalgi 101 tilli versiyasida boʻlgani kabi, mashina tarjimasi inson tarjimasiga qanchalik yaqin ekanini oʻlchaydigan BLEU metrikasi boʻyicha,NLLB-200 oʻzidan avvalgi mashina tarjimasining koʻp tilli algoritmidan 44 foizga mukammalroq ekanini koʻrsatdi.
Maqoladan tashqari Meta NLLB-200 modelining oʻzini va yigʻilgan maʼlumotlar omborini GitHubʼda eʼlon qildi. Baʼzi tadqiqotchilar ingliz tiliga tarjima qilishdek oraliq qadamlarni bartaraf qilish uchun ham ishlashda davom etmoqda. 2019-yilda Google dasturchilari ogʻzaki nutqni toʻgʻridan toʻgʻri tarjima qilish tizimini yaratgan edi, u faqat ovozli fayllar bilan ishlaydi va umuman soʻzning matnli koʻrinishidan foydalanmaydi.
Ushbu maqola nplus1.ru sayti materialining tarjimasi.
Muqova surat: meta.com
Matnda xato topdingizmi? Kerakli matnni belgilang va CTRL+ENTER tugmalarini bosing.