Метрики якості перекладу: MQM, DQF, Error Typology - як вимірювати об'єктивно

MQM, DQF, Error Typology - як об'єктивно виміряти якість перекладу. Розбір фреймворків, скорингових моделей, severity levels і практичне впровадження для агентств та фрілансерів.

Також: RU EN UK
Метрики якості перекладу: MQM, DQF, Error Typology - як вимірювати об'єктивно

Метрики якості перекладу: MQM, DQF, Error Typology - як вимірювати об’єктивно

Ревізор перевірив 50 сегментів перекладу і каже: “якість нормальна”. Інший ревізор перевіряє ті самі 50 сегментів - і каже: “тут купа помилок”. Хто правий? Без єдиної системи оцінки - ніхто, бо “нормальна якість” для кожного означає щось своє.

Саме тому існують формалізовані метрики якості перекладу - MQM, DQF, Error Typology і їхні похідні. Це не академічні іграшки: великі замовники (Google, Microsoft, Євроком ісія) давно використовують ці фреймворки для оцінки тисяч перекладачів і мільйонів сегментів. А з 2024 року MQM відсвяткував 10-річчя і отримав оновлену скорингову модель, яка нарешті стала зрозумілою для людей, а не тільки для дослідників.

Розберемося, як ці метрики працюють, чим відрізняються і як впровадити їх у реальний робочий процес - навіть якщо ви невелике агентство або фрілансер.

Що таке метрики якості перекладу і навіщо вони потрібні

Метрика якості перекладу (Translation Quality Metric) - це формалізована система для виявлення, класифікації та підрахунку помилок у перекладі. Замість суб’єктивного “подобається / не подобається” ви отримуєте конкретний числовий скор, який можна порівнювати між перекладачами, проєктами і часовими періодами.

Навіщо це потрібно:

  • Об’єктивність: два ревізори, які працюють за одним фреймворком, дадуть порівнянні результати
  • Порівнянність: ви можете порівняти якість перекладача А і перекладача Б по одній шкалі
  • Покращення процесів: якщо 40% помилок - термінологічні, ви знаєте що треба оновити глосарій, а не “переписати все”
  • SLA і контракти: замовник каже “якість має бути не нижче 98 балів за MQM” - і це конкретна, вимірювана вимога
  • Аргумент для клієнта: “ваш переклад набрав 94.2 за MQM при порозі 90 - ось звіт” звучить переконливіше за “ми перевірили, все ок”

Як зазначає MQM Council:

The central component of MQM is a hierarchical listing of issue types derived in a careful examination of existing quality evaluation metrics.

Тобто MQM не вигадував категорії з повітря - він систематизував те, що індустрія вже використовувала десятиліттями.

MQM (Multidimensional Quality Metrics): головний фреймворк індустрії

MQM - це фреймворк для аналітичної оцінки якості перекладу (Translation Quality Evaluation, TQE). Створений у 2014 році в рамках EU-funded проєкту QTLaunchpad, зараз підтримується MQM Council.

Як працює MQM

Суть проста: експерт (ревізор) читає переклад, знаходить помилки і для кожної помилки визначає:

  1. Тип помилки - з ієрархічної типології (taxonomy)
  2. Рівень серйозності (severity) - neutral, minor, major, critical

Потім скорингова модель перетворює ці анотації в числовий скор.

Типологія помилок MQM

MQM має деревоподібну структуру типів помилок. На верхньому рівні - 7 основних категорій:

Категорія Що покриває Приклад
Accuracy (точність) Відповідність оригіналу Пропуск речення, неправильний переклад числа, додавання інформації якої нема в оригіналі
Fluency (гладкість) Мовна коректність цільового тексту Граматичні помилки, неприродне формулювання, друкарські помилки
Terminology (термінологія) Відповідність термінологічним базам Використання “договір” замість “контракт” коли є затверджений глосарій
Style (стиль) Відповідність стильовим вимогам Занадто формальний тон для маркетингового тексту
Design (дизайн) Форматування, розмітка Зламані теги, невірний шрифт, проблеми з RTL
Locale Convention Регіональні конвенції Формат дати DD/MM замість MM/DD, невірний роздільник тисяч
Verity (достовірність) Фактична правильність Невірна URL-адреса, застаріла інформація

Кожна категорія має підкатегорії. Наприклад, Accuracy розбивається на Addition (додавання), Omission (пропуск), Mistranslation (невірний переклад), Untranslated (неперекладене). А Mistranslation далі - на False Friend, Technical Relationship Error і навіть MT Hallucination (галюцинація машинного перекладу) - підтип, доданий у MQM-Chat варіанті для оцінки AI-перекладу.

Два варіанти: MQM Core і MQM Full

Для практичного використання є два рівні:

  • MQM Core - спрощений набір з ~20 типів помилок. Покриває 95% потреб комерційного перекладу. Саме його використовують Phrase TMS, Smartcat та інші платформи
  • MQM Full - розширений набір з 100+ типами. Для дослідницьких проєктів, де потрібна детальна діагностика

Для більшості агентств і фрілансерів MQM Core - це те, що треба. Повну типологію використовують великі LSP і дослідницькі лабораторії.

DQF (Dynamic Quality Framework): підхід від TAUS

DQF (Dynamic Quality Framework) - це фреймворк від TAUS (Translation Automation User Society), запущений у 2011 році. Ідея DQF: якість - поняття динамічне, і вимоги до неї залежать від типу контенту, аудиторії та мети перекладу.

Що пропонує DQF

DQF складається з кількох компонентів:

  • Content Profiling - визначення типу контенту (маркетинг, технічний, юридичний) і вимог до якості
  • Error Typology - класифікація помилок (accuracy, fluency, terminology, style, locale)
  • Productivity Tracking - відстеження продуктивності перекладачів (слів на годину, час на пост-редагування)
  • Adequacy/Fluency Rating - оцінка адекватності та гладкості перекладу

Як зазначає TAUS:

Quality in DQF is considered dynamic since today’s translation quality requirements change depending on content type, purpose and audience.

DQF відстежує і продуктивність, і якість перекладу одночасно - це його сильна сторона для менеджерів, яким потрібно бачити повну картину.

DQF vs MQM: конкуренти чи партнери?

Спочатку DQF і MQM розвивались окремо. Але у 2014-2015 роках TAUS і DFKI (German Research Center for AI) гармонізували обидва фреймворки в єдину DQF-MQM типологію. Результат:

  • 6 верхніх категорій помилок DQF стали підмножиною MQM
  • Хто використовує DQF error typology - автоматично використовує MQM 2.0
  • З 2018 року DQF-підмножина MQM була оновлена і перейменована в MQM Core

Тобто зараз це не “DQF проти MQM”, а “MQM як єдиний стандарт, DQF як практична реалізація для трекінгу продуктивності + якості”.

Інші моделі: LISA QA, SAE J2450 і галузеві фреймворки

MQM/DQF - не єдині метрики. Ось ще кілька, які ви можете зустріти:

LISA QA Model

LISA QA (від Localization Industry Standards Association) - модель 1990-х, оновлена в 2006. Класифікує помилки в 7 категорій, включаючи DTP і UI-специфічні проблеми. LISA як організація припинила існування у 2011 році, але модель все ще зустрічається в старих SLA-контрактах.

SAE J2450

SAE J2450 - стандарт від Society of Automotive Engineers. Створений спеціально для технічних мануалів в автомобільній індустрії. 7 типів помилок (wrong term, syntactic error, omission, word structure, misspelling, punctuation, miscellaneous) x 2 рівні серйозності (serious, minor). Простий і жорсткий - ідеально для конвеєра, але занадто обмежений для загального перекладу.

DGT Error Typology

Генеральний директорат перекладів Єврокомісії (DGT) має власну типологію з 5 вимірами помилок і 6 кодами помилок. Використовується для оцінки зовнішніх підрядників ЄС.

Порівняння фреймворків

Фреймворк Рік Типи помилок Severity levels Сфера застосування
MQM Full 2014 100+ 4 (neutral/minor/major/critical) Універсальний
MQM Core 2018 ~20 4 Комерційний переклад
DQF 2011 6 верхніх 3-4 Корпоративний + продуктивність
LISA QA 1990s 7 3 Локалізація ПЗ (архівний)
SAE J2450 2001 7 2 Автомобільна документація
DGT 2024 6 3 Переклад для інституцій ЄС

Як бачите - MQM/MQM Core зараз де-факто стандарт. Якщо ви тільки починаєте - беріть MQM Core і не ускладнюйте.

Скорингова модель: як помилки перетворюються в число

Знайти і класифікувати помилки - половина діла. Друга половина - перетворити анотації в зрозумілий скор. Тут MQM пропонує кілька моделей.

Severity multipliers

За замовчуванням MQM використовує 4 рівні серйозності з такими множниками:

Severity Множник (penalty points) Коли ставити
Neutral 0 Неідеально, але допустимо в контексті
Minor 1 Помилка яка не заважає розумінню, але помітна
Major 5 Помилка яка спотворює зміст або виглядає непрофесійно
Critical 25 Помилка з юридичними, фінансовими або безпековими наслідками

Наприклад: “Nehmen Sie 5 mg ein” перекладено як “Приймайте 50 мг” - це Critical (25 балів), бо невірне дозування ліків може бути небезпечним. А зайва кома в маркетинговому тексті - Minor (1 бал).

Raw Score

Найпростіша формула:

Raw Score = 100 - (Total Penalty Points / Word Count x 1000)

Приклад: 1000 слів, знайдено 2 minor (2 x 1 = 2) і 1 major (1 x 5 = 5). Total = 7. Score = 100 - (7 / 1000 x 1000) = 100 - 7 = 93.0

Linear Calibrated Scoring Model (2024)

З 2024 року MQM Council рекомендує калібровану модель. Вона дозволяє:

  • Порівнювати скори між різними типами контенту
  • Встановлювати поріг проходження (passing threshold) гнучко
  • Адаптувати під різні service levels (gist translation vs. certified translation)

Наприклад, для юридичного перекладу поріг може бути 99.5 (максимум 5 penalty points на 1000 слів), а для user-generated content - 97.2 (до 28 penalty points). Гнучко і прагматично.

Практичний поріг: що вважається “хорошим” перекладом

Типові пороги в індустрії:

Тип контенту Поріг (MQM Score) Допустимо penalty points / 1000 слів
Юридичний, медичний, фінансовий 98-99.5 0.5-2
Маркетинговий 95-98 2-5
Технічна документація 93-97 3-7
Gist / internal use 85-93 7-15
Raw MT (без пост-редагування) 70-85 15-30

Це орієнтири - кожна організація калібрує під себе.

Як впровадити метрики у свій робочий процес

Теорія - добре, але як це працює на практиці? Ось покроковий план для агентства або фрілансера.

Крок 1: Оберіть фреймворк

Для 90% випадків - MQM Core. Він підтримується більшістю CAT-інструментів і достатньо детальний для комерційного перекладу. Якщо ви в автомобільній індустрії - SAE J2450. Якщо працюєте з Євроком ісією - DGT.

Крок 2: Визначте severity guidelines

Не залишайте на розсуд ревізора. Опишіть конкретно: що є minor, що major, що critical ДЛЯ ВАШОГО типу контенту. Приклад:

  • Critical: помилки в назвах ліків, юридичних термінах, цифрах у фінансових документах, помилки що спотворюють зміст на протилежний
  • Major: пропуск речення, невірна термінологія, помилки що змінюють зміст
  • Minor: стилістичні неточності, друкарські помилки, невідповідність style guide

Крок 3: Визначте розмір вибірки

Перевіряти 100% тексту - дорого. Стандартна практика:

  • Великі проєкти (10,000+ слів): вибірка 5-10% (500-1000 слів), мінімум з кожного розділу
  • Середні проєкти (1,000-10,000): 10-20%
  • Малі проєкти (<1,000): 100% (все одно невеликий обсяг)

Як зазначають дослідники в статті про Multi-Range Theory, для дуже малих вибірок (навіть одне речення) MQM рекомендує використовувати Statistical Quality Control замість простого підрахунку.

Крок 4: Оберіть інструмент

Сучасні CAT-системи мають вбудовану підтримку LQA:

Інструмент MQM підтримка Кастомізація Звітність
Phrase TMS MQM Core шаблон Повна (категорії, ваги, пороги) Dashboard + export
memoQ LQA модуль Повна Вбудовані звіти
Smartcat MQM framework Базова Авто-перевірки + ручне LQA
Lokalise MQM-based scoring Повна Scoring 0-100

Якщо ви фрілансер без TMS - можна почати з Google Sheets: стовпці для сегмента, типу помилки, severity і penalty points. Формула скору - одна формула в Excel.

Крок 5: Навчіть ревізорів

Найслабша ланка будь-якої метрики - людина яка її застосовує. Inter-annotator agreement (узгодженість між ревізорами) - це ключова проблема. Два ревізори дивляться на одне речення: один бачить minor, інший - major.

Рішення: - Проведіть калібраційну сесію: 50 сегментів з помилками, ревізори оцінюють незалежно, потім порівнюєте і обговорюєте розбіжності - Створіть severity guidelines з конкретними прикладами (не абстрактні правила, а “ось ЦЕ речення - major, тому що…”) - Перевіряйте узгодженість раз на квартал

MQM для оцінки машинного перекладу і MTPE

Окремий і важливий юзкейс: MQM для оцінки якості MT і пост-редагування.

Традиційні автоматичні метрики (BLEU, COMET, METEOR) порівнюють вихід MT з референсним перекладом і дають один число. Проблема: вони не розрізняють типи помилок. BLEU може дати високий скор тексту, де правильно перекладено 95% слів, але неправильне одне число в дозуванні ліків - а це критична помилка.

MQM вирішує це, бо оцінює конкретні помилки з їх серйозністю. Саме тому великі конференції з MT (WMT) перейшли на MQM-based оцінку для human evaluation з 2020 року.

Для MTPE-процесу це означає: ви можете виміряти не просто “скільки часу пішло на пост-редагування”, а “які саме помилки MT робить найчастіше” - і на основі цього вирішити, чи варто змінити engine, допрацювати промпт або скоригувати glossary.

Поширені помилки при впровадженні метрик

Помилка 1: Використовувати метрику як каральний інструмент

“Ваш скор 91.3 замість 95 - штраф.” Це вбиває мотивацію і стосунки з перекладачами. Метрика - це діагностичний інструмент, не кнут. Якщо перекладач стабільно отримує 91-92 при порозі 95, це сигнал для навчання або оновлення глосарію, а не для звільнення.

Помилка 2: Оцінювати без калібрації

Якщо ревізори не пройшли калібрацію - результати нічого не варті. Один ревізор все ставить minor, інший - major. Скор “92” від першого і “78” від другого для того самого тексту - це не метрика, це хаос.

Помилка 3: Занадто детальна типологія

MQM Full має 100+ типів помилок. Якщо ви почнете з повної типології - ревізори заплутаються і витрачатимуть більше часу на класифікацію помилки, ніж на її пошук. Починайте з MQM Core (~20 типів) і розширюйте тільки якщо бачите що потрібна більша деталізація.

Помилка 4: Ігнорувати контекст

“Сертифікований переклад” і “gist для внутрішнього використання” - це різні рівні якості. Якщо ви застосовуєте юридичний поріг до внутрішнього FAQ-перекладу, ви витрачаєте час і гроші даремно. Калібруйте пороги під тип контенту.

Зв’язок з ISO 17100 і TEP-моделлю

MQM/DQF - це метрики для ВИМІРЮВАННЯ якості. А ISO 17100 і TEP-модель - це процеси для ЗАБЕЗПЕЧЕННЯ якості. Вони не конкурують, а доповнюють одне одного:

  • ISO 17100 каже: “переклад має пройти ревізію другою людиною” (процес)
  • TEP каже: “Translation → Editing → Proofreading - ось етапи” (воркфлоу)
  • MQM каже: “ось як виміряти результат кожного етапу” (метрика)

Ідеальна система: TEP-процес за ISO 17100 + MQM-оцінка на виході кожного етапу. Тоді ви бачите не тільки фінальну якість, а й де саме в пайплайні виникають проблеми.

Для автоматизованих QA-перевірок (теги, числа, консистентність) MQM дає framework для того, щоб автоматичні знахідки класифікувати за тою самою шкалою що й ручні.

FAQ

Що таке MQM простими словами?

MQM (Multidimensional Quality Metrics) - це стандартизована система для оцінки якості перекладу. Ревізор читає переклад, знаходить помилки, класифікує кожну за типом (точність, термінологія, стиль) і серйозністю (minor, major, critical). Потім формула перетворює це в числовий скор від 0 до 100. Це як оцінювання контрольної роботи - але з чіткими правилами що рахувати за помилку і скільки балів знімати.

Чи потрібні метрики якості фрілансеру, чи тільки агентствам?

Метрики корисні і фрілансерам. По-перше, великі замовники все частіше вимагають MQM-based QA в контрактах. По-друге, якщо ви самі оцінюєте свою роботу за формалізованою системою - ви бачите свої слабкі місця і цілеспрямовано їх покращуєте. По-третє, в портфоліо “середній MQM-скор 97.8 за останні 50 проєктів” виглядає значно переконливіше за “я роблю якісні переклади”.

Яка різниця між MQM і DQF?

Зараз - практично ніякої. Спочатку це були окремі фреймворки: MQM від DFKI, DQF від TAUS. У 2014-2015 роках їх гармонізували в єдину DQF-MQM типологію. З 2018 року DQF-підмножина MQM стала MQM Core. Якщо хтось каже “ми використовуємо DQF” - вони по суті використовують MQM Core з додатковим трекінгом продуктивності.

Скільки коштує впровадити MQM в агентстві?

Сам фреймворк безкоштовний - типологія і документація відкриті. Витрати будуть на: (1) навчання ревізорів (1-2 дні калібраційних сесій), (2) можливо оновлення TMS якщо ваш не підтримує LQA (Phrase TMS, memoQ вже мають вбудовану підтримку), (3) час на створення severity guidelines під ваші типи контенту. Для невеликого агентства реалістичний бюджет впровадження - 0 грошей і 2-3 дні роботи на налаштування.

Чи замінять автоматичні метрики (BLEU, COMET) ручну MQM-оцінку?

Ні. Автоматичні метрики хороші для швидкого скринінгу великих обсягів MT, але вони не розрізняють критичну помилку в дозуванні ліків і незначну стилістичну неточність - обидві для BLEU це просто “не збігається з референсом”. MQM з ручною анотацією залишається золотим стандартом для оцінки якості, де помилки мають різну вагу.

Які інструменти підтримують MQM-based оцінку?

Phrase TMS, memoQ, Smartcat і Lokalise мають вбудовану підтримку. SDL Trados також підтримує LQA з кастомними профілями. Для фрілансерів без TMS - Google Sheets або Excel з формулою скорингу працюють чудово як стартова точка.

Спробуйте ChatsControl

AI-платформа для професійних перекладачів

Спробувати безкоштовно →