Translation Memory: как вести, чистить и монетизировать базу переводов

Практический гид по ведению TM - организация, чистка дубликатов, инструменты и способы заработать на накопленной базе переводов.

Также: RU EN UK

200 000 сегментов за пять лет работы - звучит как сокровище. Но открываешь свою TM и видишь: три разных перевода “Arbeitsvertrag” (потому что в 2022 ты переводил “трудовой договор”, в 2023 - “трудовое соглашение”, а в 2024 вернулся к “трудовой договор”), десятки дубликатов, устаревшие названия компаний и сегменты из проекта, который ты даже не помнишь. Знакомо? Тогда эта статья для тебя.

Translation Memory (TM) - это, пожалуй, самый ценный актив переводчика после собственного мозга. Но только если ты её правильно ведёшь, регулярно чистишь и понимаешь как превратить годы работы в конкурентное преимущество. Давай разбираться.

Что такое Translation Memory и почему это твой главный актив

Если ты уже работаешь с CAT-инструментами, ты знаешь что такое TM. Но на всякий случай - коротко.

Translation Memory - это база данных, где хранятся пары “оригинал + перевод” на уровне предложений (сегментов). Каждый раз когда ты переводишь новый сегмент, CAT-инструмент сохраняет его в TM. В следующий раз, когда встретится такое же или похожее предложение, инструмент автоматически подставит предыдущий перевод.

Стандартный формат хранения - TMX (Translation Memory eXchange). Это XML-файл, который понимают все CAT-инструменты: Trados, memoQ, Smartcat, OmegaT - что угодно. Ты можешь свободно переносить TM между разными программами без потери данных.

Почему TM - это сокровище? Вот конкретные цифры. По данным Taia, компании которые используют TM, экономят 30-50% на переводах после первых 6 месяцев. Точные совпадения (exact matches) могут снизить стоимость на 70-90%, нечёткие совпадения (fuzzy matches) - на 40-60%. Одна SaaS-компания сэкономила $45 000 за год, переиспользуя 12 000 сегментов из своей TM.

Для тебя как переводчика это означает: чем больше и чище твоя TM, тем быстрее ты работаешь и тем больше зарабатываешь за час реального времени.

Как правильно организовать Translation Memory

Самое плохое что можно сделать - кидать всё в одну TM. Юридические переводы, медицинские, маркетинговые - всё в одном файле. Через год ты получишь кашу, где “Behandlung” предлагается и как “лечение” (из медицинского проекта) и как “обработка” (из технического).

Структура TM: разделяй и властвуй

Вот рабочая структура, которую используют опытные переводчики:

Уровень Пример Зачем
По домену TM_Legal_DE-RU, TM_Medical_DE-RU Разная терминология не смешивается
По клиенту TM_Siemens_DE-RU, TM_Bosch_DE-RU У каждого клиента свои термины и стиль
По языковой паре TM_DE-RU, TM_EN-RU Очевидно, но многие игнорируют
Основная + справочная Main TM + Reference TM Основная для новых проектов, справочная - старые переводы для контекста

Одно правило, которое спасает от хаоса: основная TM для активных проектов (новые, проверенные переводы) + справочная TM для всего старого (чтобы подглядывать, но не подставлять автоматически).

Метаданные - твой друг

Каждый сегмент в TM может иметь метаданные: дата создания, имя переводчика, название проекта, клиент. Заполняй их. Когда через два года нужно будет решить какой перевод правильный из трёх вариантов - метаданные скажут тебе кто, когда и для кого это переводил.

В memoQ есть отличная фича - ты можешь присваивать сегментам рейтинг качества. В Trados можно фильтровать по дате, автору и проекту. Используй эти возможности.

Очистка TM: как и зачем

Один переводчик на форуме Trusted Translations описал чистку TM как “Titanic task” - титаническое задание. И это правда, если запустить ситуацию на годы. Но если делать регулярно - это 2-3 часа в квартал.

Что нужно чистить

Дубликаты с разными переводами. Один и тот же исходный сегмент с двумя-тремя разными переводами. CAT-инструмент не знает какой выбрать, ты тратишь время на выбор вручную. Решение: оставить один правильный вариант, остальные - удалить.

Устаревшая терминология. Компания-клиент сменила название продукта. Законодательство обновилось и термин изменился. Ты усовершенствовал свой глоссарий. Но в TM до сих пор лежат старые переводы, и они вылезают как fuzzy matches.

Пустые или “мусорные” сегменты. Числа, даты, отдельные слова, строки из одного символа - всё это попадает в TM и засоряет её. Один сегмент-точка “.” с переводом “.” тебе точно не пригодится.

Сегменты с ошибками форматирования. Сломанные теги, лишние пробелы, неправильное форматирование - всё это портит качество автоподстановки.

Инструменты для чистки

Инструмент Цена Что делает
Trados TM Maintenance Входит в Trados Удаление дубликатов, фильтрация, массовое редактирование
memoQ TM Editor Входит в memoQ Редактирование, фильтры, экспорт/импорт
Olifant (Okapi) Бесплатно Просмотр, редактирование и фильтрация TMX-файлов
ApSIC Xbench €99/год (v2.9 бесплатно) QA-отчёты, поиск несоответствий, проверка терминологии

Профессиональный воркфлоу чистки выглядит так:

  1. Экспортируй TM в TMX-формат
  2. Открой в Xbench или Olifant - получи отчёт о дубликатах и несоответствиях
  3. Пройдись по отчёту, прими решение по каждому проблемному сегменту
  4. Удали или отредактируй проблемные сегменты
  5. Импортируй очищенную TM обратно в рабочий CAT

Как часто чистить

Минимум - раз в квартал. Идеально - после каждого крупного проекта. Как писал один автор на POEditor: “Очистка TM - это не одноразовый проект, а начало процесса. Без регулярного обслуживания через несколько месяцев ты вернёшься к тому же хаосу.”

Поставь себе напоминание в календаре. Серьёзно. 2-3 часа раз в 3 месяца сэкономят тебе десятки часов в течение года.

Как монетизировать Translation Memory

Ты пять лет переводил юридические документы DE>RU. У тебя 150 000 сегментов с проверенной юридической терминологией. Это имеет ценность. Вопрос - как её реализовать.

Вариант 1: Предлагай скидки за TM leverage

Когда новый клиент приносит текст, который на 60% совпадает с твоей TM - ты можешь сделать работу вдвое быстрее. Вместо того чтобы молча заработать больше за час, предложи клиенту скидку. Стандартная практика в индустрии:

Тип совпадения Скидка от полной ставки
Exact match (100%) 70-90% скидка
Fuzzy match (75-99%) 30-60% скидка
Repetitions (повторы в тексте) 70-90% скидка
No match (новые сегменты) Полная ставка

Да, ты зарабатываешь меньше за слово - но выигрываешь на скорости и лояльности клиента. Клиент видит экономию, возвращается снова, и твоя TM растёт дальше.

Вариант 2: TM как конкурентное преимущество

“У меня уже есть 100 000 сегментов юридических переводов в паре DE>RU” - эта фраза в твоём профиле на ProZ или в ответе клиенту говорит больше чем любой сертификат. Это доказательство опыта и гарантия качества и консистентности.

Когда ищешь новых клиентов, упоминай свою TM. Агентства это понимают и ценят - меньше затрат для них, выше качество для конечного клиента.

Вариант 3: Продажа TM и глоссариев

Существуют платформы для продажи: TM-Town (продажа глоссариев, комиссия 20%), TTMEM.com (TM Stock - маркетплейс для TM). Звучит привлекательно, но есть серьёзные оговорки.

Переводчик и блогер Pieter Beens написал честную статью об этом: “Главный недостаток - ты разбрасываешь знания и экспертизу, которые строил годами, ради небольших денег, при этом ставя себя под риск.” И далее: “Если продавать только общие сегменты без специфической терминологии - TM становится бесполезной для покупателя. А если продавать с терминологией - ты теряешь конкурентное преимущество.”

Мой совет: не продавай TM напрямую. Лучше используй её как конкурентное преимущество через скидки (вариант 1) и как доказательство экспертизы (вариант 2).

Кто владеет Translation Memory: знай свои права

Это вопрос, который многие переводчики игнорируют - и зря. Кто является владельцем TM, которую ты наполняешь работая на клиента или агентство?

Юридическая сторона

По общему правилу, если ты фрилансер - авторское право на перевод принадлежит тебе, если иное не прописано в договоре. Но многие агентства вставляют в контракт пункт о передаче прав на TM. Некоторые требуют сдать TM после завершения проекта.

Один из пользователей ProZ написал: “Translation Memory - это интеллектуальная собственность переводчика.” И юридически это так - если в договоре не сказано иначе.

Что делать

  • Всегда читай контракт, особенно пункты про IP (intellectual property) и TM ownership
  • Если агентство требует сдать TM - обсуди это до начала работы, не после
  • Веди параллельную личную TM, куда попадают общие переводы (не клиент-специфические)
  • Если составляешь договор с клиентом, пропиши чётко кто оставляет TM после завершения проекта

Рекомендация oneword.de (немецкое бюро переводов) прямая: “Рекомендуется урегулировать вопрос использования и прав на TM до заказа перевода, чтобы обеспечить контрактно ваше исключительное право на переводы и TM-файлы.”

Чеклист для здоровой TM

Вот быстрый чеклист, который можно повесить на монитор:

  • TM разделены по доменам и языковым парам
  • После каждого проекта - быстрый обзор новых сегментов
  • Раз в квартал - полная чистка (дубликаты, устаревшие термины)
  • Метаданные заполнены (дата, автор, проект)
  • Бекап TM хранится отдельно (облачное хранилище или внешний диск)
  • Контракты проверены на предмет прав на TM

Если честно, большинство переводчиков не делают и половины из этого. Но те, кто делают - работают быстрее, зарабатывают больше и имеют меньше головной боли с консистентностью переводов. Выбор за тобой.

FAQ

Сколько сегментов нужно в TM, чтобы она начала приносить пользу?

Даже 1000 сегментов уже дают эффект - особенно если ты работаешь в одной нише. Реальная разница ощущается от 10 000+ сегментов, когда fuzzy matches начинают появляться почти в каждом новом тексте. Но качество сегментов важнее количества - 5000 чистых, проверенных сегментов ценнее чем 50 000 засорённых.

Можно ли объединить несколько TM в одну?

Да, все CAT-инструменты поддерживают слияние (merge) TM-файлов. Но перед объединением обязательно проведи чистку каждой TM отдельно, иначе ты просто умножаешь хаос. В Trados это делается через Upgrade Translation Memories, в memoQ - через Import. Формат TMX гарантирует совместимость.

Как перенести TM из одного CAT-инструмента в другой?

Экспортируй TM в формат TMX - это стандарт, который поддерживают Trados, memoQ, OmegaT, Smartcat, Wordfast и все другие CAT-инструменты. Импортируй TMX-файл в новый инструмент. Возможно, некоторые метаданные или специфические атрибуты не перенесутся, но сами переводы - 100%.

Что делать с TM после смены специализации?

Не удаляй старые TM. Перенеси их в “справочную” категорию - они не будут автоматически подставляться в новых проектах, но ты сможешь искать по ним вручную если понадобится. Кто знает - может через год старый клиент вернётся с обновлением тех же текстов.

Нужно ли делать бекап Translation Memory?

Обязательно. TM - это результат лет работы, и потерять её из-за сбоя диска или вируса - катастрофа. Храни копию в облачном хранилище (Google Drive, Dropbox) и на внешнем диске. Раз в месяц - обновляй бекап. TMX-файлы занимают мало места - даже TM на 500 000 сегментов весит меньше 100 МБ.

Попробуйте ChatsControl

AI-платформа для профессиональных переводчиков

Попробовать бесплатно →