«Хочется, чтобы люди не смеялись»: активист из Уфы за 6 лет создал онлайн-переводчик с башкирского языка

Для студентов и школьников перевод с башкирского был большой проблемой еще десять лет назад

Поделиться

По официальным данным, в России существует 139 языков разных народов, и 40 из них находятся под угрозой исчезновения. В регионах живут люди, которые занимаются языковым активизмом: чтобы сохранить родной язык, рассказывают о нём, помогают желающим его изучить, придумывают тематические проекты. Такие есть и в Башкирии.

Герой нашего материала — Искандер Шакиров. Он кандидат философских наук и долгое время работал в БашГУ, а еще он с нуля создал онлайн-переводчик с башкирского языка. Чего это ему стоило и для чего нужно — читайте в нашем материале.

«Вместо адекватного перевода тебе могло выдать черт-те что»

— Я сам башкир, вырос в башкирской деревне, и у меня никогда особо не было необходимости что-то переводить, — рассказывает Искандер. — Потом, когда я уже повзрослел и женился, у меня появился ребенок.

Мальчик рос и постепенно учился разговаривать на обоих языках своей семьи. Ребенок интересовался, как называются те или иные вещи и на русском, и на башкирском. Искандер рассказал, как во время прогулки малыш принес ему еловую шишку и спросил, как это называется.

— Я захотел сказать ему, как шишка называется на башкирском. А потом обнаружил, что завис. Шишка-то переводится как «тубырсыҡ», но я забыл об этом, — вспоминает мужчина. — Искал в разных переводчиках, но нормального перевода так и не нашел.

Это было в 2015–2016 годах. Тогда же Искандера осенило: он хочет сделать словарь.

— Я понял, что надо это исправить. Вот и захотел сделать электронный словарь, чтобы можно было пользоваться и с телефона, и с компьютера, — говорит он.

В те времена в онлайн-переводчике Google только появился татарский язык, а в «Яндекс.Переводчике» — башкирский. Однако точно перевести текст с русского на башкирский было большой проблемой, а с башкирского на русский — и того сложнее.

— В те времена нейросети еще не были такими популярными, поэтому работало всё не очень хорошо, вместо адекватного перевода тебе могло выдать черт-те что, — рассказывает Искандер. — В то время переводчик создать было довольно тяжело, к тому же я не айтишник, поэтому изначально был план создать словарь.

Искандер изучил и оцифровал около 200 различных книг

Искандер изучил и оцифровал около 200 различных книг

Поделиться

«Все хотят примерно одного и того же»

— Специалисты рассказывали мне, что разные словари — фразеологические, орфоэпические, толковые — имеют свою специфику. С начала XX века их было издано немерено, — говорит Искандер.

Для словаря, разумеется, нужны слова, фразы и устойчивые выражения, то есть для начала нужно было собрать большой корпус этих единиц.

— Раз уж я вовлекся, решил довести до конца. А конца-края было не видно, — вспоминает мужчина. — У башкир в разное время была разная письменность: до современной использовали и латинский алфавит, и арабский. Люди несли мне книги, написанные и на латинице, и с помощью арабской вязи.

По сарафанному радио люди начали узнавать о проекте Искандера.

— Многие книги несли из подвалов каких-то, на страницах была плесень, тараканы. Некоторые книжки вообще были изданы чуть ли не в Иране. Этот лексический фонд у меня собирался-собирался, вот и разросся, — говорит Искандер.

Даже страницы в плохом состоянии нужно было оцифровать и перевести в электронный формат, а потом очистить его от случайных артефактов и проверить, чтобы буквы не потеряли свои элементы. Так корпус и собрался. С 2016 года Искандер оцифровал около 200 различных словарей башкирского языка и приблизился к идее создать супермегасловарь.

— Вплотную я засел за это дело году в 2017-м, потому что тогда отменили обязательное изучение национальных языков в школах, были какие-то брожения, многие начали интересоваться языковыми делами, — говорит он. — Никто не хотел, чтобы язык вымирал. А когда ты плохо знаешь язык, у тебя появляется мотивация его изучить.

Искандеру помогали разные люди, которые разделяли с ним работу. Среди них были и лингвисты, и филологи, и программисты.

— Некоторые ребята делали приложения, некоторые — разные клавиатуры для смартфонов, и время от времени мы друг другу помогали. Но, как это бывает, кто-то помогает, а потом отходит от дел, и остается костяк очень небольшой, — рассказывает Искандер.

В какой-то момент мужчина работал над проектом один — на чистом энтузиазме.

— Я делал это так долго, потому что тоже периодически переключался на другие вещи. Да люди, наверное, думали: «Есть же Искандер, вот он и делает», — делится мужчина.

Однажды Искандер познакомился с активистами языка эсперанто (искусственно созданный язык, который должен был стать понятным для любого человека и использовался бы в качестве универсального международного языка. — Прим. ред.). На той встрече были представители и других народов, к примеру, Дагестана и Крайнего Севера.

— Оказалось, что все хотят примерно одного и того же, — рассказывает Искандер. — Чтобы можно было искать слова в интернете, чтобы был голосовой ввод… Никто не знал как. Потому что тема айтишная. У нас как: либо ты филолог, либо ты айтишник.

Мужчина мечтает, чтобы башкирский появился в гугл-переводчике

Мужчина мечтает, чтобы башкирский появился в гугл-переводчике

Поделиться

Физическое воплощение

Итак, все данные собраны, настало время найти платформу, на которой словарь будет существовать. Искандер выбрал для этого польскую Glosbe, где есть также функционал переводчика. Платформу сделали любители из Варшавы, которые сделали польско-английский словарь.

— Я с администраторами веду переписку много лет, плюс на каждом языке они зарабатывают, — говорит Искандер. — Сначала там были лишь переводы слов, без какого-либо анализа. Потом там появились примеры и, наконец, функционал переводчика, который позволяет переводить куски текста.

Создатель словаря добавил, что последнюю функцию платформе еще предстоит отточить. Кстати, слова про чистый энтузиазм не были шуткой: Искандер и его единомышленники занимались проектом без какой-либо поддержки со стороны.

— Мы много лет пытались участвовать в грантах главы республики по сохранению и развитию языков народов, но поддержки не получили, — делится в своих соцсетях Искандер. — Словарная работа считается одной из самых трудоемких и скрупулезных в лингвистике, поэтому мало кто вообще может этим заниматься.

Искандер поделился, что планирует и дальше развивать проект. Например, он хотел бы получать машинный перевод с английского языка на башкирский — и чтобы всё это мог озвучивать искусственно сгенерированный голос.

Также он надеется, что перевод на башкирский появится в онлайн-переводчиках от «Яндекса» и Google.

— Мне хочется, чтобы над переводом на башкирский и с башкирского люди не смеялись, а чтобы это полезно было, по-настоящему, чтобы я мог перевести, скажем, ребенку сказку, чуть-чуть подправить — и это был бы уже готовый грамотный текст, — делится Искандер.

Total
0
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Related Posts