Клієнт надіслав годину аудіозапису наради українською - потрібен переклад на німецьку до завтра. Ти вмикаєш автоматичне розпізнавання, і через 10 хвилин дивишся на результат: половина слів перекручена, імена людей перетворились на абракадабру, а технічні терміни система навіть не намагалася розпізнати. Знайома ситуація? Якщо ти коли-небудь пробував використовувати speech-to-text для української - ти знаєш це розчарування. Але за останні два роки ситуація серйозно змінилась. Давай розберемо, що зараз реально працює, а де досі провал.
Що таке ASR і навіщо це перекладачу¶
ASR (Automatic Speech Recognition) - це технологія, яка перетворює мовлення в текст. По суті, ти говориш або завантажуєш аудіо - а система видає текстову розшифровку (транскрипт).
Для перекладача або замовника перекладу це працює так: замість того, щоб слухати запис і вручну набирати текст (транскрибувати), ти отримуєш чернетку тексту автоматично. Далі вичитуєш, виправляєш помилки - і вже маєш готовий текст для перекладу. Або ще крутіше - деякі платформи вміють одразу і розпізнати мовлення, і перекласти результат на іншу мову.
Навіщо це потрібно:
- Перекладачам - щоб не транскрибувати вручну (це болюче повільно - 1 година аудіо = 4-6 годин ручної транскрипції)
- Бізнесу - щоб перекласти записи нарад, вебінарів, інтерв’ю без зайвих витрат
- Звичайним людям - щоб швидко зрозуміти зміст запису іншою мовою, навіть без ідеальної якості
Які системи підтримують українську мову¶
Ще років п’ять тому вибір для української був мізерний. Зараз ситуація набагато краща - більшість великих платформ додали підтримку української. Але “підтримує” і “працює добре” - це дві різні речі.
Ось порівняння основних систем станом на початок 2026 року.
| Система | Підтримка UK | Точність (WER) | Ціна | Реальний час |
|---|---|---|---|---|
| Whisper (OpenAI) | Так, 99+ мов | ~10% WER (fine-tuned) | Безкоштовно (open source) / $0.006/хв API | Ні (тільки файли) |
| Google Cloud Speech-to-Text | Так (Chirp 2) | ~15-20% WER | $0.016/хв (стандарт) | Так |
| Microsoft Azure Speech | Так | ~12-18% WER | $0.016/хв | Так |
| ElevenLabs Scribe | Так, 90+ мов | ≤5% WER (заявлено) | від $0.40/год | Ні |
| Deepgram Nova-3 | Так | ~15% WER | $0.0043/хв | Так |
| Meta MMS/Omnilingual | Так, 1600+ мов | Варіюється | Безкоштовно (open source) | Ні |
WER (Word Error Rate) - це відсоток неправильно розпізнаних слів. Чим менше - тим краще. Для порівняння: для англійської топові моделі показують 2-5% WER, для української реальні цифри зазвичай у діапазоні 8-20%.
Whisper від OpenAI - головний гравець¶
Whisper - це open-source модель від OpenAI, і для української вона зараз працює найкраще з безкоштовних рішень. Модель large-v3 підтримує 99+ мов, і українська серед них. На тестовому наборі Common Voice fine-tuned версія Whisper large-v2 показала WER близько 10% - тобто десь кожне десяте слово з помилкою.
Звучить багато? Для порівняння: три роки тому WER для української був 25-30% навіть у найкращих систем. 10% - це вже робочий результат, з яким можна працювати після швидкої корекції.
Whisper large-v3 дає ще кращі результати - OpenAI заявляє про 10-20% зниження помилок порівняно з v2 для більшості мов.
Google Cloud Speech-to-Text¶
Google підтримує українську через модель Chirp 2. Але за результатами незалежного дослідження (CEUR Workshop), Google Cloud Speech-to-Text показав гіршу точність для української порівняно з Amazon Transcribe та Microsoft Azure. Це не означає, що він поганий - просто для конкретно української мови інші платформи працюють краще.
Плюс Google - це реальний час (streaming) і інтеграція з іншими сервісами Google.
ElevenLabs Scribe¶
ElevenLabs заявляє WER ≤5% для української - це найкращий показник серед комерційних рішень. Але є нюанс: ця цифра - від самого ElevenLabs, незалежних бенчмарків мало. Ціна починається від $0.40 за годину аудіо, що робить його одним з найдоступніших варіантів для великих обсягів.
Реальні проблеми з українським ASR¶
Окей, системи підтримують українську. Але на практиці є купа проблем, які знижують якість розпізнавання.
Суржик і code-switching¶
Багато українців перемикаються між українською і російською в одній розмові - або говорять суржиком. Для ASR-систем це кошмар. Модель налаштована або на українську, або на російську, і коли мовець раптом вставляє фразу іншою мовою - система починає “плавати”.
Цікавий факт: українська фонетика включає всі російські фонеми. Тому деякі дослідники (зокрема команда з ELRA) пропонують використовувати акустичну модель на базі українського набору фонем для розпізнавання і code-switching мовлення - і це працює краще, ніж дві окремі моделі.
Діалекти і акценти¶
Людина з Львова і людина з Харкова говорять по-різному - різна вимова, різна інтонація, різна лексика. ASR-системи тренуються переважно на “стандартній” українській, і можуть погано справлятися з регіональними особливостями.
На одному з форумів для перекладачів користувач писав: “Записав інтерв’ю з бабусею з Полтавщини - Whisper розпізнав десь 60% слів. Та ж бабуся говорила б ‘класичною’ українською - результат був би набагато кращий.”
Шуми і якість запису¶
Це проблема для всіх мов, але для менш представлених мов (а українська все ще менш представлена порівняно з англійською) ефект сильніший. Якщо англійську модель тренували на мільйонах годин різного аудіо (з шумами, в різних умовах), то для української такого різноманіття тренувальних даних просто немає.
Практичний наслідок: записи конференцій, телефонних дзвінків або вуличних інтерв’ю розпізнаються набагато гірше, ніж студійний запис.
Технічна і юридична термінологія¶
ASR-системи тренуються на загальній мові. Коли в записі з’являються юридичні терміни (“забезпечувальні заходи”, “касаційна інстанція”), медична термінологія або технічний жаргон - точність різко падає. Система або “чує” щось інше, або просто вставляє найближче за звучанням загальновживане слово.
Як перекладач може використовувати ASR у роботі¶
Попри всі обмеження, ASR для української вже достатньо добре працює, щоб реально прискорити роботу. Ось практичні сценарії.
Транскрипція для подальшого перекладу¶
Замість 4-6 годин ручної транскрипції на 1 годину аудіо, ти отримуєш чернетку за 10-15 хвилин. Далі вичитуєш, виправляєш помилки (особливо імена, терміни, числа) - і маєш готовий текст для перекладу документів. Навіть при WER 10-15% це економить години роботи.
Субтитри до відео¶
Якщо тобі потрібно зробити субтитри до українського відео з перекладом на іншу мову - ASR дає першу версію субтитрів, яку ти потім редагуєш і перекладаєш. Whisper вміє також визначати тайм-коди, що дуже зручно для субтитрів.
Переклад нарад у реальному часі¶
Платформи типу KUDO, Interprefy та Transync AI вміють робити синхронне розпізнавання і переклад мовлення. Transync AI, наприклад, заявляє 96%+ точності з латентністю менше 100 мілісекунд - і окремо підкреслює підтримку українських відмінків (7 відмінків - це виклик для будь-якої NLP-системи).
Для онлайн-конференцій це вже робоче рішення, хоча для серйозних подій живий перекладач-синхроніст все ще надійніший.
Голосовий ввід для CAT-інструментів¶
Деякі CAT-інструменти дозволяють інтегрувати ASR для голосового вводу перекладу. Ти говориш переклад голосом - система розпізнає і вставляє текст. Це може бути швидше за набір, особливо для довгих текстів.
Коли ASR для української не підійде¶
Є ситуації, де автоматичне розпізнавання мовлення просто не дасть прийнятного результату.
Офіційні документи. Якщо результат транскрипції буде використаний як офіційний документ (протокол засідання для суду, наприклад) - автоматичне розпізнавання без 100% ручної перевірки неприпустиме. Пропущене слово або невірно розпізнане ім’я може мати юридичні наслідки.
Записи з поганою якістю аудіо. Телефонні дзвінки з поганим зв’язком, записи з фоновим шумом, декілька людей говорять одночасно - навіть англійська ASR “плаває” в таких умовах, а для української результат буде ще гіршим.
Діалектне мовлення. Якщо мовець говорить яскравим діалектом або суржиком - краще транскрибувати вручну або хоча б ретельно перевірити кожне речення після ASR.
Конфіденційні дані. Хмарні ASR-сервіси означають, що твоє аудіо завантажується на сервери компанії. Для конфіденційних записів (медичні консультації, юридичні переговори) це може бути проблемою з точки зору GDPR і захисту даних. У таких випадках краще використовувати локальні рішення типу Whisper, який можна запустити на своєму комп’ютері.
Що з open-source рішеннями для української¶
Окремо варто згадати open-source спільноту, яка активно працює над покращенням ASR для української.
Проєкт speech-recognition-uk на GitHub збирає посилання на моделі, датасети та інструменти для українського speech-to-text. Тут можна знайти:
- Fine-tuned версії Whisper для української
- Моделі на базі wav2vec2 для українського мовлення
- Датасети для тренування (включаючи Common Voice з 70+ годин валідованих українських записів)
- Інструменти для оцінки якості розпізнавання
Mozilla Common Voice - це краудсорсинговий проєкт, де волонтери записують і верифікують фрази різними мовами. Для української зібрано десятки годин валідованих записів, і це один з основних датасетів для тренування українських ASR-моделей. Якщо хочеш допомогти покращити розпізнавання української - просто зайди на commonvoice.mozilla.org і запиши кілька фраз.
FAQ¶
Яка ASR-система найкраще розпізнає українську мову?¶
Станом на початок 2026 року найкращі результати для української показує Whisper large-v3 від OpenAI (особливо fine-tuned версії) і ElevenLabs Scribe. Whisper - безкоштовний і open-source, що робить його доступним для всіх. ElevenLabs заявляє WER ≤5% для української, але це комерційний продукт з оплатою від $0.40 за годину аудіо. Для реального часу (стрімінг) краще підходять Google Cloud або Azure.
Чи можна використовувати ASR для перекладу з української на німецьку?¶
Так, але це двоетапний процес: спочатку ASR розпізнає мовлення і створює текст українською, а потім цей текст перекладається на німецьку (вручну або через машинний переклад). Деякі платформи (KUDO, Transync AI) роблять це одним кроком - розпізнають і перекладають одночасно. Але для якісного перекладу, особливо юридичних або офіційних текстів, краще розділити ці етапи і перевірити результат кожного.
Чому ASR гірше працює з українською, ніж з англійською?¶
Головна причина - обсяг тренувальних даних. Whisper, наприклад, тренувався на 680 000 годин аудіо, але приблизно 65% з них - англійська, а на мультимовне розпізнавання припадає лише 17%. Для української доступно набагато менше записів, ніж для англійської, німецької чи іспанської. Менше даних - менше “досвіду” у моделі - більше помилок. Плюс специфічні виклики: 7 відмінків, code-switching з російською, регіональні діалекти.
Чи безпечно завантажувати конфіденційні записи в хмарні ASR-сервіси?¶
Залежить від сервісу і твоїх вимог. Більшість великих платформ (Google, Azure, ElevenLabs) заявляють про відповідність GDPR і шифрування даних. Але якщо запис містить чутливу інформацію (медичні дані, юридичні переговори) - краще використовувати локальне рішення. Whisper можна запустити повністю на своєму комп’ютері без відправки даних в хмару - це найбезпечніший варіант.
Скільки коштує розпізнавання українського мовлення?¶
Whisper - безкоштовний, якщо запускаєш локально (потрібен комп’ютер з GPU). Через API OpenAI - $0.006 за хвилину. Google Cloud і Azure - приблизно $0.016 за хвилину. ElevenLabs - від $0.40 за годину (приблизно $0.007 за хвилину). Deepgram Nova-3 - $0.0043 за хвилину для записів, $0.0077 для стрімінгу. Для порівняння: ручна транскрипція коштує $1-3 за хвилину аудіо, тож навіть найдорожчий ASR-сервіс у десятки разів дешевший.
Потрібен професійний переклад?
AI-переклад + перевірка перекладачем + нотаріальне завірення
Замовити переклад →