Translation Memory: як вести, очищати і монетизувати базу перекладів

Практичний гід з ведення TM - організація, очищення дублікатів, інструменти для чистки і способи заробити на накопиченій базі перекладів.

Також: RU EN UK

200 000 сегментів за п’ять років роботи - звучить як скарб. Але відкриваєш свою TM і бачиш: три різні переклади “Arbeitsvertrag” (бо в 2022 ти перекладав “трудовий договір”, в 2023 - “трудова угода”, а в 2024 повернувся до “трудовий договір”), десятки дублікатів, застарілі назви компаній і сегменти з проєкту який ти навіть не пам’ятаєш. Знайомо? Тоді ця стаття для тебе.

Translation Memory (TM) - це, мабуть, найцінніший актив перекладача після власного мозку. Але тільки якщо ти її правильно ведеш, регулярно очищуєш і розумієш як перетворити роки роботи в конкурентну перевагу. Давай розберемося як це робити.

Що таке Translation Memory і чому це твій головний актив

Якщо ти вже працюєш з CAT-інструментами, ти знаєш що таке TM. Але на всяк випадок - коротко.

Translation Memory - це база даних, де зберігаються пари “оригінал + переклад” на рівні речень (сегментів). Кожного разу коли ти перекладаєш новий сегмент, CAT-інструмент зберігає його в TM. Наступного разу, коли зустрінеться таке ж або схоже речення, інструмент автоматично підставить попередній переклад.

Стандартний формат зберігання - TMX (Translation Memory eXchange). Це XML-файл, який розуміють усі CAT-інструменти: Trados, memoQ, Smartcat, OmegaT - що завгодно. Ти можеш вільно переносити TM між різними програмами без втрати даних.

Чому TM - це скарб? Ось конкретні цифри. За даними Taia, компанії які використовують TM, економлять 30-50% на перекладах після перших 6 місяців. Точні збіги (exact matches) можуть зменшити вартість на 70-90%, нечіткі збіги (fuzzy matches) - на 40-60%. Одна SaaS-компанія зекономила $45 000 за рік, перевикористовуючи 12 000 сегментів зі своєї TM.

Для тебе як перекладача це означає: чим більша і чистіша твоя TM, тим швидше ти працюєш і тим більше заробляєш за годину реального часу.

Як правильно організувати Translation Memory

Найгірше, що можна зробити - кидати все в одну TM. Юридичні переклади, медичні, маркетингові - все в одному файлі. Через рік ти отримаєш кашу, де “Behandlung” пропонується і як “лікування” (з медичного проєкту) і як “обробка” (з технічного).

Структура TM: розділяй і пануй

Ось робоча структура, яку використовують досвідчені перекладачі:

Рівень Приклад Для чого
За доменом TM_Legal_DE-UK, TM_Medical_DE-UK Різна термінологія не змішується
За клієнтом TM_Siemens_DE-UK, TM_Bosch_DE-UK Кожен клієнт має свої терміни і стиль
За мовною парою TM_DE-UK, TM_EN-UK Очевидно, але багато хто ігнорує
Основна + довідкова Main TM + Reference TM Основна для нових проєктів, довідкова - старі переклади для контексту

Одне правило, яке рятує від хаосу: основна TM для активних проєктів (нові, перевірені переклади) + довідкова TM для всього старого (щоб підглядати, але не підставляти автоматично).

Метадані - твій друг

Кожен сегмент в TM може мати метадані: дата створення, ім’я перекладача, назва проєкту, клієнт. Заповнюй їх. Коли через два роки треба буде вирішити який переклад правильний з трьох варіантів - метадані скажуть тобі хто, коли і для кого це перекладав.

В memoQ є чудова фіча - ти можеш присвоювати сегментам рейтинг якості. В Trados можна фільтрувати за датою, автором і проєктом. Використовуй ці можливості.

Очищення TM: як і навіщо

Один перекладач на форумі Trusted Translations описав чистку TM як “Titanic task” - титанічне завдання. І це правда, якщо запустити ситуацію на роки. Але якщо робити регулярно - це 2-3 години на квартал.

Що потрібно чистити

Дублікати з різними перекладами. Один і той же вихідний сегмент з двома-трьома різними перекладами. CAT-інструмент не знає який обрати, ти витрачаєш час на вибір вручну. Рішення: залишити один правильний варіант, решту - видалити.

Застаріла термінологія. Компанія-клієнт змінила назву продукту. Законодавство оновилося і термін змінився. Ти вдосконалив свій глосарій. Але в TM досі лежать старі переклади, і вони вилазять як fuzzy matches.

Порожні або “сміттєві” сегменти. Числа, дати, окремі слова, рядки з одного символу - все це потрапляє в TM і засмічує її. Один крапка-сегмент “.” з перекладом “.” тобі точно не знадобиться.

Сегменти з помилками форматування. Зламані теги, зайві пробіли, неправильне форматування - це все псує якість автопідстановки.

Інструменти для чистки

Інструмент Ціна Що робить
Trados TM Maintenance Входить в Trados Видалення дублікатів, фільтрація, масове редагування
memoQ TM Editor Входить в memoQ Редагування, фільтри, експорт/імпорт
Olifant (Okapi) Безкоштовно Перегляд, редагування і фільтрація TMX-файлів
ApSIC Xbench €99/рік (v2.9 безкоштовно) QA-звіти, пошук невідповідностей, перевірка термінології

Професійний воркфлоу чистки виглядає так:

  1. Експортуй TM у TMX-формат
  2. Відкрий в Xbench або Olifant - отримай звіт про дублікати і невідповідності
  3. Пройдися по звіту, прийми рішення по кожному проблемному сегменту
  4. Видали або відредагуй проблемні сегменти
  5. Імпортуй очищену TM назад в робочий CAT

Як часто чистити

Мінімум - раз на квартал. Ідеально - після кожного великого проєкту. Як писав один автор на POEditor: “TM cleanup - це не одноразовий проєкт, а початок процесу. Без регулярного обслуговування через кілька місяців ти повернешся до того ж хаосу.”

Зроби собі нагадування в календарі. Серйозно. 2-3 години раз на 3 місяці зекономлять тобі десятки годин протягом року.

Як монетизувати Translation Memory

Ти п’ять років перекладав юридичні документи DE>UK. У тебе 150 000 сегментів з перевіреною юридичною термінологією. Це має цінність. Питання - як її реалізувати.

Варіант 1: Пропонуй знижки за TM leverage

Коли новий клієнт приносить текст, який на 60% збігається з твоєю TM - ти можеш зробити роботу вдвічі швидше. Замість того щоб мовчки заробити більше за годину, запропонуй клієнту знижку. Стандартна практика в індустрії:

Тип збігу Знижка від повної ставки
Exact match (100%) 70-90% знижка
Fuzzy match (75-99%) 30-60% знижка
Repetitions (повтори в тексті) 70-90% знижка
No match (нові сегменти) Повна ставка

Так, ти заробляєш менше за слово - але виграєш на швидкості і лояльності клієнта. Клієнт бачить економію, повертається знову, і твій TM росте далі.

Варіант 2: TM як конкурентна перевага

“У мене вже є 100 000 сегментів юридичних перекладів у парі DE>UK” - ця фраза в твоєму профілі на ProZ чи у відповіді клієнту говорить більше ніж будь-який сертифікат. Це доказ досвіду і гарантія якості та консистентності.

Коли шукаєш нових клієнтів, згадуй свою TM. Агенції це розуміють і цінують - менше витрат для них, вища якість для кінцевого клієнта.

Варіант 3: Продаж TM і глосаріїв

Існують платформи для продажу: TM-Town (продаж глосаріїв, комісія 20%), TTMEM.com (TM Stock - маркетплейс для TM). Звучить привабливо, але є серйозні застереження.

Перекладач і блогер Pieter Beens написав чесну статтю про це: “Найважливіший недолік - ти розпорошуєш знання та експертизу, які будував роками, заради невеликих грошей, при цьому ставлячи себе під ризик.” І далі: “Якщо продавати тільки загальні сегменти без специфічної термінології - TM стає марною для покупця. А якщо продавати з термінологією - ти втрачаєш конкурентну перевагу.”

Мій порада: не продавай TM напряму. Краще використовуй її як конкурентну перевагу через знижки (варіант 1) і як доказ експертизи (варіант 2).

Хто володіє Translation Memory: знай свої права

Це питання, яке багато перекладачів ігнорують - і дарма. Хто є власником TM, яку ти наповнюєш працюючи на клієнта чи агенцію?

Юридична сторона

За загальним правилом, якщо ти фрілансер - авторське право на переклад належить тобі, якщо інше не прописано в договорі. Але багато агенцій вставляють у контракт пункт про передачу прав на TM. Деякі вимагають здати TM після завершення проєкту.

Один з користувачів ProZ написав: “Translation Memory - це інтелектуальна власність перекладача.” І юридично це так - якщо в договорі не сказано інакше.

Що робити

  • Завжди читай контракт, особливо пункти про IP (intellectual property) і TM ownership
  • Якщо агенція вимагає здати TM - обговори це до початку роботи, не після
  • Веди паралельну особисту TM, куди потрапляють загальні переклади (не клієнт-специфічні)
  • Якщо складаєш договір з клієнтом, пропиши чітко хто залишає TM після завершення проєкту

Рішення oneword.de (німецьке бюро перекладів) пряме: “Рекомендується врегулювати питання використання і прав на TM до замовлення перекладу, щоб забезпечити контрактно ваше виключне право на переклади і TM-файли.”

Чеклист для здорової TM

Ось швидкий чеклист, який можна повісити на монітор:

  • TM розділені за доменами і мовними парами
  • Після кожного проєкту - швидкий огляд нових сегментів
  • Раз на квартал - повна чистка (дублікати, застарілі терміни)
  • Метадані заповнені (дата, автор, проєкт)
  • Бекап TM зберігається окремо (хмарне сховище або зовнішній диск)
  • Контракти перевірені на предмет прав на TM

Якщо чесно, більшість перекладачів не роблять і половини з цього. Але ті, хто роблять - працюють швидше, заробляють більше і мають менше головного болю з консистентністю перекладів. Вибір за тобою.

FAQ

Скільки сегментів потрібно в TM, щоб вона почала приносити користь?

Навіть 1000 сегментів вже дають ефект - особливо якщо ти працюєш в одній ніші. Реальна різниця відчувається від 10 000+ сегментів, коли fuzzy matches починають з’являтися майже в кожному новому тексті. Але якість сегментів важливіша за кількість - 5000 чистих, перевірених сегментів цінніші ніж 50 000 засмічених.

Чи можна об’єднати кілька TM в одну?

Так, всі CAT-інструменти підтримують злиття (merge) TM-файлів. Але перед об’єднанням обов’язково проведи чистку кожної TM окремо, інакше ти просто множиш хаос. В Trados це робиться через Upgrade Translation Memories, в memoQ - через Import. Формат TMX гарантує сумісність.

Як перенести TM з одного CAT-інструменту в інший?

Експортуй TM у формат TMX - це стандарт, який підтримують Trados, memoQ, OmegaT, Smartcat, Wordfast і всі інші CAT-інструменти. Імпортуй TMX-файл у новий інструмент. Можливо, деякі метадані або специфічні атрибути не перенесуться, але самі переклади - 100%.

Що робити з TM після зміни спеціалізації?

Не видаляй старі TM. Перенеси їх у “довідкову” категорію - вони не будуть автоматично підставлятися в нових проєктах, але ти зможеш шукати по них вручну якщо знадобиться. Хто знає - може через рік старий клієнт повернеться з оновленням тих самих текстів.

Чи потрібно робити бекап Translation Memory?

Обов’язково. TM - це результат років роботи, і втратити її через збій диска або вірус - катастрофа. Зберігай копію в хмарному сховищі (Google Drive, Dropbox) і на зовнішньому диску. Раз на місяць - оновлюй бекап. TMX-файли займають мало місця - навіть TM на 500 000 сегментів важить менше 100 МБ.

Спробуйте ChatsControl

AI-платформа для професійних перекладачів

Спробувати безкоштовно →