Метрики качества перевода: MQM, DQF, Error Typology - как измерять объективно¶
Ревизор проверил 50 сегментов перевода и говорит: “качество нормальное”. Другой ревизор проверяет те же 50 сегментов - и говорит: “тут куча ошибок”. Кто прав? Без единой системы оценки - никто, потому что “нормальное качество” для каждого означает что-то свое.
Именно для этого существуют формализованные метрики качества перевода - MQM, DQF, Error Typology и их производные. Это не академические игрушки: крупные заказчики (Google, Microsoft, Еврокомиссия) давно используют эти фреймворки для оценки тысяч переводчиков и миллионов сегментов. А с 2024 года MQM отметил 10-летие и получил обновленную скоринговую модель, которая наконец стала понятной для людей, а не только для исследователей.
Разберемся, как эти метрики работают, чем отличаются и как внедрить их в реальный рабочий процесс - даже если вы небольшое агентство или фрилансер.
Что такое метрики качества перевода и зачем они нужны¶
Метрика качества перевода (Translation Quality Metric) - это формализованная система для выявления, классификации и подсчета ошибок в переводе. Вместо субъективного “нравится / не нравится” вы получаете конкретный числовой скор, который можно сравнивать между переводчиками, проектами и временными периодами.
Зачем это нужно:
- Объективность: два ревизора, работающие по одному фреймворку, дадут сопоставимые результаты
- Сравнимость: вы можете сравнить качество переводчика А и переводчика Б по одной шкале
- Улучшение процессов: если 40% ошибок - терминологические, вы знаете что нужно обновить глоссарий, а не “переписать все”
- SLA и контракты: заказчик говорит “качество должно быть не ниже 98 баллов по MQM” - и это конкретное, измеримое требование
- Аргумент для клиента: “ваш перевод набрал 94.2 по MQM при пороге 90 - вот отчет” звучит убедительнее, чем “мы проверили, все ок”
Как отмечает MQM Council:
The central component of MQM is a hierarchical listing of issue types derived in a careful examination of existing quality evaluation metrics.
То есть MQM не придумывал категории из воздуха - он систематизировал то, что индустрия уже использовала десятилетиями.
MQM (Multidimensional Quality Metrics): главный фреймворк индустрии¶
MQM - это фреймворк для аналитической оценки качества перевода (Translation Quality Evaluation, TQE). Создан в 2014 году в рамках EU-funded проекта QTLaunchpad, сейчас поддерживается MQM Council.
Как работает MQM¶
Суть простая: эксперт (ревизор) читает перевод, находит ошибки и для каждой определяет:
- Тип ошибки - из иерархической типологии (taxonomy)
- Уровень серьезности (severity) - neutral, minor, major, critical
Затем скоринговая модель превращает эти аннотации в числовой скор.
Типология ошибок MQM¶
MQM имеет древовидную структуру типов ошибок. На верхнем уровне - 7 основных категорий:
| Категория | Что покрывает | Пример |
|---|---|---|
| Accuracy (точность) | Соответствие оригиналу | Пропуск предложения, неправильный перевод числа, добавление информации которой нет в оригинале |
| Fluency (гладкость) | Языковая корректность целевого текста | Грамматические ошибки, неестественные формулировки, опечатки |
| Terminology (терминология) | Соответствие терминологическим базам | Использование “договор” вместо “контракт” при наличии утвержденного глоссария |
| Style (стиль) | Соответствие стилевым требованиям | Слишком формальный тон для маркетингового текста |
| Design (дизайн) | Форматирование, разметка | Сломанные теги, неверный шрифт, проблемы с RTL |
| Locale Convention | Региональные конвенции | Формат даты DD/MM вместо MM/DD, неверный разделитель тысяч |
| Verity (достоверность) | Фактическая правильность | Неверный URL, устаревшая информация |
Каждая категория имеет подкатегории. Например, Accuracy разбивается на Addition (добавление), Omission (пропуск), Mistranslation (неверный перевод), Untranslated (непереведенное). А Mistranslation дальше - на False Friend, Technical Relationship Error и даже MT Hallucination (галлюцинация машинного перевода) - подтип, добавленный в MQM-Chat варианте для оценки AI-перевода.
Два варианта: MQM Core и MQM Full¶
Для практического использования есть два уровня:
- MQM Core - упрощенный набор из ~20 типов ошибок. Покрывает 95% потребностей коммерческого перевода. Именно его используют Phrase TMS, Smartcat и другие платформы
- MQM Full - расширенный набор из 100+ типов. Для исследовательских проектов, где нужна детальная диагностика
Для большинства агентств и фрилансеров MQM Core - это то, что нужно. Полную типологию используют крупные LSP и исследовательские лаборатории.
DQF (Dynamic Quality Framework): подход от TAUS¶
DQF (Dynamic Quality Framework) - это фреймворк от TAUS (Translation Automation User Society), запущенный в 2011 году. Идея DQF: качество - понятие динамическое, и требования к нему зависят от типа контента, аудитории и цели перевода.
Что предлагает DQF¶
DQF состоит из нескольких компонентов:
- Content Profiling - определение типа контента (маркетинг, технический, юридический) и требований к качеству
- Error Typology - классификация ошибок (accuracy, fluency, terminology, style, locale)
- Productivity Tracking - отслеживание продуктивности переводчиков (слов в час, время на пост-редактирование)
- Adequacy/Fluency Rating - оценка адекватности и гладкости перевода
Как отмечает TAUS:
Quality in DQF is considered dynamic since today’s translation quality requirements change depending on content type, purpose and audience.
DQF отслеживает и продуктивность, и качество перевода одновременно - это его сильная сторона для менеджеров, которым нужно видеть полную картину.
DQF vs MQM: конкуренты или партнеры?¶
Сначала DQF и MQM развивались отдельно. Но в 2014-2015 годах TAUS и DFKI (German Research Center for AI) гармонизировали оба фреймворка в единую DQF-MQM типологию. Результат:
- 6 верхних категорий ошибок DQF стали подмножеством MQM
- Кто использует DQF error typology - автоматически использует MQM 2.0
- С 2018 года DQF-подмножество MQM было обновлено и переименовано в MQM Core
То есть сейчас это не “DQF против MQM”, а “MQM как единый стандарт, DQF как практическая реализация для трекинга продуктивности + качества”.
Другие модели: LISA QA, SAE J2450 и отраслевые фреймворки¶
MQM/DQF - не единственные метрики. Вот еще несколько, с которыми вы можете столкнуться:
LISA QA Model¶
LISA QA (от Localization Industry Standards Association) - модель 1990-х, обновленная в 2006 году. Классифицирует ошибки в 7 категорий, включая DTP и UI-специфические проблемы. LISA как организация прекратила существование в 2011 году, но модель все еще встречается в старых SLA-контрактах.
SAE J2450¶
SAE J2450 - стандарт от Society of Automotive Engineers. Создан специально для технических мануалов в автомобильной индустрии. 7 типов ошибок (wrong term, syntactic error, omission, word structure, misspelling, punctuation, miscellaneous) x 2 уровня серьезности (serious, minor). Простой и жесткий - идеален для конвейера, но слишком ограничен для общего перевода.
DGT Error Typology¶
Генеральный директорат переводов Еврокомиссии (DGT) имеет собственную типологию с 5 измерениями ошибок и 6 кодами ошибок. Используется для оценки внешних подрядчиков ЕС.
Сравнение фреймворков¶
| Фреймворк | Год | Типы ошибок | Severity levels | Сфера применения |
|---|---|---|---|---|
| MQM Full | 2014 | 100+ | 4 (neutral/minor/major/critical) | Универсальный |
| MQM Core | 2018 | ~20 | 4 | Коммерческий перевод |
| DQF | 2011 | 6 верхних | 3-4 | Корпоративный + продуктивность |
| LISA QA | 1990-е | 7 | 3 | Локализация ПО (архивный) |
| SAE J2450 | 2001 | 7 | 2 | Автомобильная документация |
| DGT | 2024 | 6 | 3 | Перевод для институций ЕС |
Как видите - MQM/MQM Core сейчас де-факто стандарт. Если вы только начинаете - берите MQM Core и не усложняйте.
Скоринговая модель: как ошибки превращаются в число¶
Найти и классифицировать ошибки - половина дела. Вторая половина - превратить аннотации в понятный скор. Тут MQM предлагает несколько моделей.
Severity multipliers¶
По умолчанию MQM использует 4 уровня серьезности с такими множителями:
| Severity | Множитель (penalty points) | Когда ставить |
|---|---|---|
| Neutral | 0 | Неидеально, но допустимо в контексте |
| Minor | 1 | Ошибка которая не мешает пониманию, но заметна |
| Major | 5 | Ошибка которая искажает смысл или выглядит непрофессионально |
| Critical | 25 | Ошибка с юридическими, финансовыми или последствиями для безопасности |
Например: “Nehmen Sie 5 mg ein” переведено как “Принимайте 50 мг” - это Critical (25 баллов), потому что неверная дозировка лекарств может быть опасной. А лишняя запятая в маркетинговом тексте - Minor (1 балл).
Raw Score¶
Простейшая формула:
Raw Score = 100 - (Total Penalty Points / Word Count x 1000)
Пример: 1000 слов, найдено 2 minor (2 x 1 = 2) и 1 major (1 x 5 = 5). Total = 7. Score = 100 - (7 / 1000 x 1000) = 100 - 7 = 93.0
Linear Calibrated Scoring Model (2024)¶
С 2024 года MQM Council рекомендует калиброванную модель. Она позволяет:
- Сравнивать скоры между разными типами контента
- Устанавливать порог прохождения (passing threshold) гибко
- Адаптировать под разные service levels (gist translation vs. certified translation)
Например, для юридического перевода порог может быть 99.5 (максимум 5 penalty points на 1000 слов), а для user-generated content - 97.2 (до 28 penalty points). Гибко и прагматично.
Практический порог: что считается “хорошим” переводом¶
Типичные пороги в индустрии:
| Тип контента | Порог (MQM Score) | Допустимо penalty points / 1000 слов |
|---|---|---|
| Юридический, медицинский, финансовый | 98-99.5 | 0.5-2 |
| Маркетинговый | 95-98 | 2-5 |
| Техническая документация | 93-97 | 3-7 |
| Gist / internal use | 85-93 | 7-15 |
| Raw MT (без пост-редактирования) | 70-85 | 15-30 |
Это ориентиры - каждая организация калибрует под себя.
Как внедрить метрики в свой рабочий процесс¶
Теория - хорошо, но как это работает на практике? Вот пошаговый план для агентства или фрилансера.
Шаг 1: Выберите фреймворк¶
Для 90% случаев - MQM Core. Он поддерживается большинством CAT-инструментов и достаточно детальный для коммерческого перевода. Если вы в автомобильной индустрии - SAE J2450. Если работаете с Еврокомиссией - DGT.
Шаг 2: Определите severity guidelines¶
Не оставляйте на усмотрение ревизора. Опишите конкретно: что является minor, что major, что critical ДЛЯ ВАШЕГО типа контента. Пример:
- Critical: ошибки в названиях лекарств, юридических терминах, цифрах в финансовых документах, ошибки которые искажают смысл на противоположный
- Major: пропуск предложения, неверная терминология, ошибки которые меняют смысл
- Minor: стилистические неточности, опечатки, несоответствие style guide
Шаг 3: Определите размер выборки¶
Проверять 100% текста - дорого. Стандартная практика:
- Крупные проекты (10,000+ слов): выборка 5-10% (500-1000 слов), минимум из каждого раздела
- Средние проекты (1,000-10,000): 10-20%
- Малые проекты (<1,000): 100% (все равно небольшой объем)
Как отмечают исследователи в статье о Multi-Range Theory, для очень малых выборок (даже одно предложение) MQM рекомендует использовать Statistical Quality Control вместо простого подсчета.
Шаг 4: Выберите инструмент¶
Современные CAT-системы имеют встроенную поддержку LQA:
| Инструмент | MQM поддержка | Кастомизация | Отчетность |
|---|---|---|---|
| Phrase TMS | MQM Core шаблон | Полная (категории, веса, пороги) | Dashboard + export |
| memoQ | LQA модуль | Полная | Встроенные отчеты |
| Smartcat | MQM framework | Базовая | Авто-проверки + ручное LQA |
| Lokalise | MQM-based scoring | Полная | Scoring 0-100 |
Если вы фрилансер без TMS - можно начать с Google Sheets: столбцы для сегмента, типа ошибки, severity и penalty points. Формула скора - одна формула в Excel.
Шаг 5: Обучите ревизоров¶
Самое слабое звено любой метрики - человек, который ее применяет. Inter-annotator agreement (согласованность между ревизорами) - ключевая проблема. Два ревизора смотрят на одно предложение: один видит minor, другой - major.
Решение: - Проведите калибровочную сессию: 50 сегментов с ошибками, ревизоры оценивают независимо, затем сравниваете и обсуждаете расхождения - Создайте severity guidelines с конкретными примерами (не абстрактные правила, а “вот ЭТО предложение - major, потому что…”) - Проверяйте согласованность раз в квартал
MQM для оценки машинного перевода и MTPE¶
Отдельный и важный юзкейс: MQM для оценки качества MT и пост-редактирования.
Традиционные автоматические метрики (BLEU, COMET, METEOR) сравнивают выход MT с референсным переводом и дают одно число. Проблема: они не различают типы ошибок. BLEU может дать высокий скор тексту, где правильно переведено 95% слов, но неправильно одно число в дозировке лекарств - а это критическая ошибка.
MQM решает это, потому что оценивает конкретные ошибки с их серьезностью. Именно поэтому крупные конференции по MT (WMT) перешли на MQM-based оценку для human evaluation с 2020 года.
Для MTPE-процесса это означает: вы можете измерить не просто “сколько времени ушло на пост-редактирование”, а “какие именно ошибки MT делает чаще всего” - и на основе этого решить, стоит ли менять engine, доработать промпт или скорректировать glossary.
Распространенные ошибки при внедрении метрик¶
Ошибка 1: Использовать метрику как карательный инструмент¶
“Ваш скор 91.3 вместо 95 - штраф.” Это убивает мотивацию и отношения с переводчиками. Метрика - это диагностический инструмент, не кнут. Если переводчик стабильно получает 91-92 при пороге 95, это сигнал для обучения или обновления глоссария, а не для увольнения.
Ошибка 2: Оценивать без калибровки¶
Если ревизоры не прошли калибровку - результаты ничего не стоят. Один ревизор все ставит minor, другой - major. Скор “92” от первого и “78” от второго для одного и того же текста - это не метрика, это хаос.
Ошибка 3: Слишком детальная типология¶
MQM Full имеет 100+ типов ошибок. Если вы начнете с полной типологии - ревизоры запутаются и будут тратить больше времени на классификацию ошибки, чем на ее поиск. Начинайте с MQM Core (~20 типов) и расширяйте только если видите что нужна большая детализация.
Ошибка 4: Игнорировать контекст¶
“Сертифицированный перевод” и “gist для внутреннего использования” - это разные уровни качества. Если вы применяете юридический порог к внутреннему FAQ-переводу, вы тратите время и деньги впустую. Калибруйте пороги под тип контента.
Связь с ISO 17100 и TEP-моделью¶
MQM/DQF - это метрики для ИЗМЕРЕНИЯ качества. А ISO 17100 и TEP-модель - это процессы для ОБЕСПЕЧЕНИЯ качества. Они не конкурируют, а дополняют друг друга:
- ISO 17100 говорит: “перевод должен пройти ревизию другим человеком” (процесс)
- TEP говорит: “Translation -> Editing -> Proofreading - вот этапы” (воркфлоу)
- MQM говорит: “вот как измерить результат каждого этапа” (метрика)
Идеальная система: TEP-процесс по ISO 17100 + MQM-оценка на выходе каждого этапа. Тогда вы видите не только финальное качество, а и где именно в пайплайне возникают проблемы.
Для автоматизированных QA-проверок (теги, числа, консистентность) MQM дает framework для того, чтобы автоматические находки классифицировать по той же шкале что и ручные.
FAQ¶
Что такое MQM простыми словами?¶
MQM (Multidimensional Quality Metrics) - это стандартизированная система для оценки качества перевода. Ревизор читает перевод, находит ошибки, классифицирует каждую по типу (точность, терминология, стиль) и серьезности (minor, major, critical). Затем формула превращает это в числовой скор от 0 до 100. Это как оценивание контрольной работы - но с четкими правилами что считать за ошибку и сколько баллов снимать.
Нужны ли метрики качества фрилансеру, или только агентствам?¶
Метрики полезны и фрилансерам. Во-первых, крупные заказчики все чаще требуют MQM-based QA в контрактах. Во-вторых, если вы сами оцениваете свою работу по формализованной системе - вы видите свои слабые места и целенаправленно их улучшаете. В-третьих, в портфолио “средний MQM-скор 97.8 за последние 50 проектов” выглядит значительно убедительнее, чем “я делаю качественные переводы”.
Какая разница между MQM и DQF?¶
Сейчас - практически никакой. Изначально это были отдельные фреймворки: MQM от DFKI, DQF от TAUS. В 2014-2015 годах их гармонизировали в единую DQF-MQM типологию. С 2018 года DQF-подмножество MQM стало MQM Core. Если кто-то говорит “мы используем DQF” - они по сути используют MQM Core с дополнительным трекингом продуктивности.
Сколько стоит внедрить MQM в агентстве?¶
Сам фреймворк бесплатный - типология и документация открыты. Затраты будут на: (1) обучение ревизоров (1-2 дня калибровочных сессий), (2) возможно обновление TMS если ваш не поддерживает LQA (Phrase TMS, memoQ уже имеют встроенную поддержку), (3) время на создание severity guidelines под ваши типы контента. Для небольшого агентства реалистичный бюджет внедрения - 0 денег и 2-3 дня работы на настройку.
Заменят ли автоматические метрики (BLEU, COMET) ручную MQM-оценку?¶
Нет. Автоматические метрики хороши для быстрого скрининга больших объемов MT, но они не различают критическую ошибку в дозировке лекарств и незначительную стилистическую неточность - обе для BLEU это просто “не совпадает с референсом”. MQM с ручной аннотацией остается золотым стандартом для оценки качества, где ошибки имеют разный вес.
Какие инструменты поддерживают MQM-based оценку?¶
Phrase TMS, memoQ, Smartcat и Lokalise имеют встроенную поддержку. SDL Trados тоже поддерживает LQA с кастомными профилями. Для фрилансеров без TMS - Google Sheets или Excel с формулой скоринга работают отлично как стартовая точка.