Розпізнавання мовлення для перекладу: чи підтримують системи українську

Порівнюємо Whisper, Google, Azure та інші ASR-системи для української мови - реальна точність, ціни, проблеми з діалектами і як це використовувати для перекладу.

Також: RU EN UK

Клієнт надіслав годину аудіозапису наради українською - потрібен переклад на німецьку до завтра. Ти вмикаєш автоматичне розпізнавання, і через 10 хвилин дивишся на результат: половина слів перекручена, імена людей перетворились на абракадабру, а технічні терміни система навіть не намагалася розпізнати. Знайома ситуація? Якщо ти коли-небудь пробував використовувати speech-to-text для української - ти знаєш це розчарування. Але за останні два роки ситуація серйозно змінилась. Давай розберемо, що зараз реально працює, а де досі провал.

Що таке ASR і навіщо це перекладачу

ASR (Automatic Speech Recognition) - це технологія, яка перетворює мовлення в текст. По суті, ти говориш або завантажуєш аудіо - а система видає текстову розшифровку (транскрипт).

Для перекладача або замовника перекладу це працює так: замість того, щоб слухати запис і вручну набирати текст (транскрибувати), ти отримуєш чернетку тексту автоматично. Далі вичитуєш, виправляєш помилки - і вже маєш готовий текст для перекладу. Або ще крутіше - деякі платформи вміють одразу і розпізнати мовлення, і перекласти результат на іншу мову.

Навіщо це потрібно:

  • Перекладачам - щоб не транскрибувати вручну (це болюче повільно - 1 година аудіо = 4-6 годин ручної транскрипції)
  • Бізнесу - щоб перекласти записи нарад, вебінарів, інтерв’ю без зайвих витрат
  • Звичайним людям - щоб швидко зрозуміти зміст запису іншою мовою, навіть без ідеальної якості

Які системи підтримують українську мову

Ще років п’ять тому вибір для української був мізерний. Зараз ситуація набагато краща - більшість великих платформ додали підтримку української. Але “підтримує” і “працює добре” - це дві різні речі.

Ось порівняння основних систем станом на початок 2026 року.

Система Підтримка UK Точність (WER) Ціна Реальний час
Whisper (OpenAI) Так, 99+ мов ~10% WER (fine-tuned) Безкоштовно (open source) / $0.006/хв API Ні (тільки файли)
Google Cloud Speech-to-Text Так (Chirp 2) ~15-20% WER $0.016/хв (стандарт) Так
Microsoft Azure Speech Так ~12-18% WER $0.016/хв Так
ElevenLabs Scribe Так, 90+ мов ≤5% WER (заявлено) від $0.40/год Ні
Deepgram Nova-3 Так ~15% WER $0.0043/хв Так
Meta MMS/Omnilingual Так, 1600+ мов Варіюється Безкоштовно (open source) Ні

WER (Word Error Rate) - це відсоток неправильно розпізнаних слів. Чим менше - тим краще. Для порівняння: для англійської топові моделі показують 2-5% WER, для української реальні цифри зазвичай у діапазоні 8-20%.

Whisper від OpenAI - головний гравець

Whisper - це open-source модель від OpenAI, і для української вона зараз працює найкраще з безкоштовних рішень. Модель large-v3 підтримує 99+ мов, і українська серед них. На тестовому наборі Common Voice fine-tuned версія Whisper large-v2 показала WER близько 10% - тобто десь кожне десяте слово з помилкою.

Звучить багато? Для порівняння: три роки тому WER для української був 25-30% навіть у найкращих систем. 10% - це вже робочий результат, з яким можна працювати після швидкої корекції.

Whisper large-v3 дає ще кращі результати - OpenAI заявляє про 10-20% зниження помилок порівняно з v2 для більшості мов.

Google Cloud Speech-to-Text

Google підтримує українську через модель Chirp 2. Але за результатами незалежного дослідження (CEUR Workshop), Google Cloud Speech-to-Text показав гіршу точність для української порівняно з Amazon Transcribe та Microsoft Azure. Це не означає, що він поганий - просто для конкретно української мови інші платформи працюють краще.

Плюс Google - це реальний час (streaming) і інтеграція з іншими сервісами Google.

ElevenLabs Scribe

ElevenLabs заявляє WER ≤5% для української - це найкращий показник серед комерційних рішень. Але є нюанс: ця цифра - від самого ElevenLabs, незалежних бенчмарків мало. Ціна починається від $0.40 за годину аудіо, що робить його одним з найдоступніших варіантів для великих обсягів.

Реальні проблеми з українським ASR

Окей, системи підтримують українську. Але на практиці є купа проблем, які знижують якість розпізнавання.

Суржик і code-switching

Багато українців перемикаються між українською і російською в одній розмові - або говорять суржиком. Для ASR-систем це кошмар. Модель налаштована або на українську, або на російську, і коли мовець раптом вставляє фразу іншою мовою - система починає “плавати”.

Цікавий факт: українська фонетика включає всі російські фонеми. Тому деякі дослідники (зокрема команда з ELRA) пропонують використовувати акустичну модель на базі українського набору фонем для розпізнавання і code-switching мовлення - і це працює краще, ніж дві окремі моделі.

Діалекти і акценти

Людина з Львова і людина з Харкова говорять по-різному - різна вимова, різна інтонація, різна лексика. ASR-системи тренуються переважно на “стандартній” українській, і можуть погано справлятися з регіональними особливостями.

На одному з форумів для перекладачів користувач писав: “Записав інтерв’ю з бабусею з Полтавщини - Whisper розпізнав десь 60% слів. Та ж бабуся говорила б ‘класичною’ українською - результат був би набагато кращий.”

Шуми і якість запису

Це проблема для всіх мов, але для менш представлених мов (а українська все ще менш представлена порівняно з англійською) ефект сильніший. Якщо англійську модель тренували на мільйонах годин різного аудіо (з шумами, в різних умовах), то для української такого різноманіття тренувальних даних просто немає.

Практичний наслідок: записи конференцій, телефонних дзвінків або вуличних інтерв’ю розпізнаються набагато гірше, ніж студійний запис.

Технічна і юридична термінологія

ASR-системи тренуються на загальній мові. Коли в записі з’являються юридичні терміни (“забезпечувальні заходи”, “касаційна інстанція”), медична термінологія або технічний жаргон - точність різко падає. Система або “чує” щось інше, або просто вставляє найближче за звучанням загальновживане слово.

Як перекладач може використовувати ASR у роботі

Попри всі обмеження, ASR для української вже достатньо добре працює, щоб реально прискорити роботу. Ось практичні сценарії.

Транскрипція для подальшого перекладу

Замість 4-6 годин ручної транскрипції на 1 годину аудіо, ти отримуєш чернетку за 10-15 хвилин. Далі вичитуєш, виправляєш помилки (особливо імена, терміни, числа) - і маєш готовий текст для перекладу документів. Навіть при WER 10-15% це економить години роботи.

Субтитри до відео

Якщо тобі потрібно зробити субтитри до українського відео з перекладом на іншу мову - ASR дає першу версію субтитрів, яку ти потім редагуєш і перекладаєш. Whisper вміє також визначати тайм-коди, що дуже зручно для субтитрів.

Переклад нарад у реальному часі

Платформи типу KUDO, Interprefy та Transync AI вміють робити синхронне розпізнавання і переклад мовлення. Transync AI, наприклад, заявляє 96%+ точності з латентністю менше 100 мілісекунд - і окремо підкреслює підтримку українських відмінків (7 відмінків - це виклик для будь-якої NLP-системи).

Для онлайн-конференцій це вже робоче рішення, хоча для серйозних подій живий перекладач-синхроніст все ще надійніший.

Голосовий ввід для CAT-інструментів

Деякі CAT-інструменти дозволяють інтегрувати ASR для голосового вводу перекладу. Ти говориш переклад голосом - система розпізнає і вставляє текст. Це може бути швидше за набір, особливо для довгих текстів.

Коли ASR для української не підійде

Є ситуації, де автоматичне розпізнавання мовлення просто не дасть прийнятного результату.

Офіційні документи. Якщо результат транскрипції буде використаний як офіційний документ (протокол засідання для суду, наприклад) - автоматичне розпізнавання без 100% ручної перевірки неприпустиме. Пропущене слово або невірно розпізнане ім’я може мати юридичні наслідки.

Записи з поганою якістю аудіо. Телефонні дзвінки з поганим зв’язком, записи з фоновим шумом, декілька людей говорять одночасно - навіть англійська ASR “плаває” в таких умовах, а для української результат буде ще гіршим.

Діалектне мовлення. Якщо мовець говорить яскравим діалектом або суржиком - краще транскрибувати вручну або хоча б ретельно перевірити кожне речення після ASR.

Конфіденційні дані. Хмарні ASR-сервіси означають, що твоє аудіо завантажується на сервери компанії. Для конфіденційних записів (медичні консультації, юридичні переговори) це може бути проблемою з точки зору GDPR і захисту даних. У таких випадках краще використовувати локальні рішення типу Whisper, який можна запустити на своєму комп’ютері.

Що з open-source рішеннями для української

Окремо варто згадати open-source спільноту, яка активно працює над покращенням ASR для української.

Проєкт speech-recognition-uk на GitHub збирає посилання на моделі, датасети та інструменти для українського speech-to-text. Тут можна знайти:

  • Fine-tuned версії Whisper для української
  • Моделі на базі wav2vec2 для українського мовлення
  • Датасети для тренування (включаючи Common Voice з 70+ годин валідованих українських записів)
  • Інструменти для оцінки якості розпізнавання

Mozilla Common Voice - це краудсорсинговий проєкт, де волонтери записують і верифікують фрази різними мовами. Для української зібрано десятки годин валідованих записів, і це один з основних датасетів для тренування українських ASR-моделей. Якщо хочеш допомогти покращити розпізнавання української - просто зайди на commonvoice.mozilla.org і запиши кілька фраз.

FAQ

Яка ASR-система найкраще розпізнає українську мову?

Станом на початок 2026 року найкращі результати для української показує Whisper large-v3 від OpenAI (особливо fine-tuned версії) і ElevenLabs Scribe. Whisper - безкоштовний і open-source, що робить його доступним для всіх. ElevenLabs заявляє WER ≤5% для української, але це комерційний продукт з оплатою від $0.40 за годину аудіо. Для реального часу (стрімінг) краще підходять Google Cloud або Azure.

Чи можна використовувати ASR для перекладу з української на німецьку?

Так, але це двоетапний процес: спочатку ASR розпізнає мовлення і створює текст українською, а потім цей текст перекладається на німецьку (вручну або через машинний переклад). Деякі платформи (KUDO, Transync AI) роблять це одним кроком - розпізнають і перекладають одночасно. Але для якісного перекладу, особливо юридичних або офіційних текстів, краще розділити ці етапи і перевірити результат кожного.

Чому ASR гірше працює з українською, ніж з англійською?

Головна причина - обсяг тренувальних даних. Whisper, наприклад, тренувався на 680 000 годин аудіо, але приблизно 65% з них - англійська, а на мультимовне розпізнавання припадає лише 17%. Для української доступно набагато менше записів, ніж для англійської, німецької чи іспанської. Менше даних - менше “досвіду” у моделі - більше помилок. Плюс специфічні виклики: 7 відмінків, code-switching з російською, регіональні діалекти.

Чи безпечно завантажувати конфіденційні записи в хмарні ASR-сервіси?

Залежить від сервісу і твоїх вимог. Більшість великих платформ (Google, Azure, ElevenLabs) заявляють про відповідність GDPR і шифрування даних. Але якщо запис містить чутливу інформацію (медичні дані, юридичні переговори) - краще використовувати локальне рішення. Whisper можна запустити повністю на своєму комп’ютері без відправки даних в хмару - це найбезпечніший варіант.

Скільки коштує розпізнавання українського мовлення?

Whisper - безкоштовний, якщо запускаєш локально (потрібен комп’ютер з GPU). Через API OpenAI - $0.006 за хвилину. Google Cloud і Azure - приблизно $0.016 за хвилину. ElevenLabs - від $0.40 за годину (приблизно $0.007 за хвилину). Deepgram Nova-3 - $0.0043 за хвилину для записів, $0.0077 для стрімінгу. Для порівняння: ручна транскрипція коштує $1-3 за хвилину аудіо, тож навіть найдорожчий ASR-сервіс у десятки разів дешевший.

Потрібен професійний переклад?

AI-переклад + перевірка перекладачем + нотаріальне завірення

Замовити переклад →