Translation Memory: как вести, чистить и монетизировать базу переводов

200 000 сегментов за пять лет работы - звучит как сокровище. Но открываешь свою TM и видишь: три разных перевода “Arbeitsvertrag” (потому что в 2022 ты переводил “трудовой договор”, в 2023 - “трудовое соглашение”, а в 2024 вернулся к “трудовой договор”), десятки дубликатов, устаревшие названия компаний и сегменты из проекта, который ты даже не помнишь. Знакомо? Тогда эта статья для тебя.

Translation Memory (TM) - это, пожалуй, самый ценный актив переводчика после собственного мозга. Но только если ты её правильно ведёшь, регулярно чистишь и понимаешь как превратить годы работы в конкурентное преимущество. Давай разбираться.

Что такое Translation Memory и почему это твой главный актив¶

Если ты уже работаешь с CAT-инструментами, ты знаешь что такое TM. Но на всякий случай - коротко.

Translation Memory - это база данных, где хранятся пары “оригинал + перевод” на уровне предложений (сегментов). Каждый раз когда ты переводишь новый сегмент, CAT-инструмент сохраняет его в TM. В следующий раз, когда встретится такое же или похожее предложение, инструмент автоматически подставит предыдущий перевод.

Стандартный формат хранения - TMX (Translation Memory eXchange). Это XML-файл, который понимают все CAT-инструменты: Trados, memoQ, Smartcat, OmegaT - что угодно. Ты можешь свободно переносить TM между разными программами без потери данных.

Почему TM - это сокровище? Вот конкретные цифры. По данным Taia, компании которые используют TM, экономят 30-50% на переводах после первых 6 месяцев. Точные совпадения (exact matches) могут снизить стоимость на 70-90%, нечёткие совпадения (fuzzy matches) - на 40-60%. Одна SaaS-компания сэкономила $45 000 за год, переиспользуя 12 000 сегментов из своей TM.

Для тебя как переводчика это означает: чем больше и чище твоя TM, тем быстрее ты работаешь и тем больше зарабатываешь за час реального времени.

Как правильно организовать Translation Memory¶

Самое плохое что можно сделать - кидать всё в одну TM. Юридические переводы, медицинские, маркетинговые - всё в одном файле. Через год ты получишь кашу, где “Behandlung” предлагается и как “лечение” (из медицинского проекта) и как “обработка” (из технического).

Структура TM: разделяй и властвуй¶

Вот рабочая структура, которую используют опытные переводчики:

Уровень	Пример	Зачем
По домену	TM_Legal_DE-RU, TM_Medical_DE-RU	Разная терминология не смешивается
По клиенту	TM_Siemens_DE-RU, TM_Bosch_DE-RU	У каждого клиента свои термины и стиль
По языковой паре	TM_DE-RU, TM_EN-RU	Очевидно, но многие игнорируют
Основная + справочная	Main TM + Reference TM	Основная для новых проектов, справочная - старые переводы для контекста

Одно правило, которое спасает от хаоса: основная TM для активных проектов (новые, проверенные переводы) + справочная TM для всего старого (чтобы подглядывать, но не подставлять автоматически).

Метаданные - твой друг¶

Каждый сегмент в TM может иметь метаданные: дата создания, имя переводчика, название проекта, клиент. Заполняй их. Когда через два года нужно будет решить какой перевод правильный из трёх вариантов - метаданные скажут тебе кто, когда и для кого это переводил.

В memoQ есть отличная фича - ты можешь присваивать сегментам рейтинг качества. В Trados можно фильтровать по дате, автору и проекту. Используй эти возможности.

Очистка TM: как и зачем¶

Один переводчик на форуме Trusted Translations описал чистку TM как “Titanic task” - титаническое задание. И это правда, если запустить ситуацию на годы. Но если делать регулярно - это 2-3 часа в квартал.

Что нужно чистить¶

Дубликаты с разными переводами. Один и тот же исходный сегмент с двумя-тремя разными переводами. CAT-инструмент не знает какой выбрать, ты тратишь время на выбор вручную. Решение: оставить один правильный вариант, остальные - удалить.

Устаревшая терминология. Компания-клиент сменила название продукта. Законодательство обновилось и термин изменился. Ты усовершенствовал свой глоссарий. Но в TM до сих пор лежат старые переводы, и они вылезают как fuzzy matches.

Пустые или “мусорные” сегменты. Числа, даты, отдельные слова, строки из одного символа - всё это попадает в TM и засоряет её. Один сегмент-точка “.” с переводом “.” тебе точно не пригодится.

Сегменты с ошибками форматирования. Сломанные теги, лишние пробелы, неправильное форматирование - всё это портит качество автоподстановки.

Инструменты для чистки¶

Инструмент	Цена	Что делает
Trados TM Maintenance	Входит в Trados	Удаление дубликатов, фильтрация, массовое редактирование
memoQ TM Editor	Входит в memoQ	Редактирование, фильтры, экспорт/импорт
Olifant (Okapi)	Бесплатно	Просмотр, редактирование и фильтрация TMX-файлов
ApSIC Xbench	€99/год (v2.9 бесплатно)	QA-отчёты, поиск несоответствий, проверка терминологии

Профессиональный воркфлоу чистки выглядит так:

Экспортируй TM в TMX-формат
Открой в Xbench или Olifant - получи отчёт о дубликатах и несоответствиях
Пройдись по отчёту, прими решение по каждому проблемному сегменту
Удали или отредактируй проблемные сегменты
Импортируй очищенную TM обратно в рабочий CAT

Как часто чистить¶

Минимум - раз в квартал. Идеально - после каждого крупного проекта. Как писал один автор на POEditor: “Очистка TM - это не одноразовый проект, а начало процесса. Без регулярного обслуживания через несколько месяцев ты вернёшься к тому же хаосу.”

Поставь себе напоминание в календаре. Серьёзно. 2-3 часа раз в 3 месяца сэкономят тебе десятки часов в течение года.

Как монетизировать Translation Memory¶

Ты пять лет переводил юридические документы DE>RU. У тебя 150 000 сегментов с проверенной юридической терминологией. Это имеет ценность. Вопрос - как её реализовать.

Вариант 1: Предлагай скидки за TM leverage¶

Когда новый клиент приносит текст, который на 60% совпадает с твоей TM - ты можешь сделать работу вдвое быстрее. Вместо того чтобы молча заработать больше за час, предложи клиенту скидку. Стандартная практика в индустрии:

Тип совпадения	Скидка от полной ставки
Exact match (100%)	70-90% скидка
Fuzzy match (75-99%)	30-60% скидка
Repetitions (повторы в тексте)	70-90% скидка
No match (новые сегменты)	Полная ставка

Да, ты зарабатываешь меньше за слово - но выигрываешь на скорости и лояльности клиента. Клиент видит экономию, возвращается снова, и твоя TM растёт дальше.

Вариант 2: TM как конкурентное преимущество¶

“У меня уже есть 100 000 сегментов юридических переводов в паре DE>RU” - эта фраза в твоём профиле на ProZ или в ответе клиенту говорит больше чем любой сертификат. Это доказательство опыта и гарантия качества и консистентности.

Когда ищешь новых клиентов, упоминай свою TM. Агентства это понимают и ценят - меньше затрат для них, выше качество для конечного клиента.

Вариант 3: Продажа TM и глоссариев¶

Существуют платформы для продажи: TM-Town (продажа глоссариев, комиссия 20%), TTMEM.com (TM Stock - маркетплейс для TM). Звучит привлекательно, но есть серьёзные оговорки.

Переводчик и блогер Pieter Beens написал честную статью об этом: “Главный недостаток - ты разбрасываешь знания и экспертизу, которые строил годами, ради небольших денег, при этом ставя себя под риск.” И далее: “Если продавать только общие сегменты без специфической терминологии - TM становится бесполезной для покупателя. А если продавать с терминологией - ты теряешь конкурентное преимущество.”

Мой совет: не продавай TM напрямую. Лучше используй её как конкурентное преимущество через скидки (вариант 1) и как доказательство экспертизы (вариант 2).

Кто владеет Translation Memory: знай свои права¶

Это вопрос, который многие переводчики игнорируют - и зря. Кто является владельцем TM, которую ты наполняешь работая на клиента или агентство?

Юридическая сторона¶

По общему правилу, если ты фрилансер - авторское право на перевод принадлежит тебе, если иное не прописано в договоре. Но многие агентства вставляют в контракт пункт о передаче прав на TM. Некоторые требуют сдать TM после завершения проекта.

Один из пользователей ProZ написал: “Translation Memory - это интеллектуальная собственность переводчика.” И юридически это так - если в договоре не сказано иначе.

Что делать¶

Всегда читай контракт, особенно пункты про IP (intellectual property) и TM ownership
Если агентство требует сдать TM - обсуди это до начала работы, не после
Веди параллельную личную TM, куда попадают общие переводы (не клиент-специфические)
Если составляешь договор с клиентом, пропиши чётко кто оставляет TM после завершения проекта

Рекомендация oneword.de (немецкое бюро переводов) прямая: “Рекомендуется урегулировать вопрос использования и прав на TM до заказа перевода, чтобы обеспечить контрактно ваше исключительное право на переводы и TM-файлы.”

Чеклист для здоровой TM¶

Вот быстрый чеклист, который можно повесить на монитор:

TM разделены по доменам и языковым парам
После каждого проекта - быстрый обзор новых сегментов
Раз в квартал - полная чистка (дубликаты, устаревшие термины)
Метаданные заполнены (дата, автор, проект)
Бекап TM хранится отдельно (облачное хранилище или внешний диск)
Контракты проверены на предмет прав на TM

Если честно, большинство переводчиков не делают и половины из этого. Но те, кто делают - работают быстрее, зарабатывают больше и имеют меньше головной боли с консистентностью переводов. Выбор за тобой.

FAQ¶

Сколько сегментов нужно в TM, чтобы она начала приносить пользу?¶

Даже 1000 сегментов уже дают эффект - особенно если ты работаешь в одной нише. Реальная разница ощущается от 10 000+ сегментов, когда fuzzy matches начинают появляться почти в каждом новом тексте. Но качество сегментов важнее количества - 5000 чистых, проверенных сегментов ценнее чем 50 000 засорённых.

Можно ли объединить несколько TM в одну?¶

Да, все CAT-инструменты поддерживают слияние (merge) TM-файлов. Но перед объединением обязательно проведи чистку каждой TM отдельно, иначе ты просто умножаешь хаос. В Trados это делается через Upgrade Translation Memories, в memoQ - через Import. Формат TMX гарантирует совместимость.

Как перенести TM из одного CAT-инструмента в другой?¶

Экспортируй TM в формат TMX - это стандарт, который поддерживают Trados, memoQ, OmegaT, Smartcat, Wordfast и все другие CAT-инструменты. Импортируй TMX-файл в новый инструмент. Возможно, некоторые метаданные или специфические атрибуты не перенесутся, но сами переводы - 100%.

Что делать с TM после смены специализации?¶

Не удаляй старые TM. Перенеси их в “справочную” категорию - они не будут автоматически подставляться в новых проектах, но ты сможешь искать по ним вручную если понадобится. Кто знает - может через год старый клиент вернётся с обновлением тех же текстов.

Нужно ли делать бекап Translation Memory?¶

Обязательно. TM - это результат лет работы, и потерять её из-за сбоя диска или вируса - катастрофа. Храни копию в облачном хранилище (Google Drive, Dropbox) и на внешнем диске. Раз в месяц - обновляй бекап. TMX-файлы занимают мало места - даже TM на 500 000 сегментов весит меньше 100 МБ.

Попробуйте ChatsControl

AI-платформа для профессиональных переводчиков

Попробовать бесплатно →