ШІ-переклад і конфіденційність: що буде з твоїми даними

Березень 2023 року. Інженер Samsung вставляє конфіденційний вихідний код у ChatGPT, щоб знайти баг. Через тиждень колега завантажує туди стенограму внутрішньої наради. Третій - оптимізує тестову послідовність для виявлення дефектів у чіпах. За 20 днів компанія з капіталізацією $350 млрд тричі “злила” секретні дані в тренувальний датасет OpenAI. Якщо Samsung з армією безпековиків не вберігся - ти як перекладач, який щодня працює з конфіденційними документами клієнтів, маєш чітко розуміти, що відбувається з текстом після натискання “Translate”.

Що відбувається з текстом після натискання “Translate”¶

Коли ти вставляєш текст у будь-який онлайн-перекладач - DeepL, Google Translate, ChatGPT - він не перекладається магічно на твоєму комп’ютері. Текст шифрується і летить на сервери компанії, іноді в Німеччину, іноді в США, іноді в кілька дата-центрів одночасно.

Переклад повертається за секунди, але що відбувається з оригінальним текстом після? Ось тут починається найцікавіше. Різниця між “видалили одразу” і “зберігаємо для тренування моделі” - це різниця між конфіденційністю клієнта і потенційним витоком його даних.

Головне правило: безкоштовні версії майже завжди зберігають і використовують твій текст. Платні - зазвичай ні. Але “зазвичай” - небезпечне слово, коли йдеться про контракт клієнта на €500 000. Тому розберемо кожен сервіс окремо.

Хто зберігає, хто видаляє: порівняння ШІ-перекладачів¶

Сервіс	Тариф	Зберігає текст?	Тренує на даних?	GDPR
DeepL	Безкоштовний	Так, тимчасово	Так	Частково
DeepL	Pro (від $8.74/міс)	Ні	Ні	Так
ChatGPT	Free / Plus	За замовчуванням так	Так (можна вимкнути)	Частково
ChatGPT	API / Enterprise	Ні	Ні	Так
Google Translate	Безкоштовний	Так	Ймовірно	Частково
Google	Cloud Translation API	Ні	Ні	Так
Claude	Free / Pro	Так (з 09.2025)	За замовчуванням так	Частково
Claude	API	Ні (логи 7 днів)	Ні	Так
Microsoft	Безкоштовні додатки	Частково	Можливо	Частково
Microsoft	Azure Translator	Ні (No-Trace)	Ні	Так

Тепер деталі.

DeepL: безкоштовний vs Pro¶

Безкоштовний DeepL зберігає текст тимчасово і використовує його для покращення нейронних мереж. В умовах використання прямо написано: ти не маєш права перекладати тексти з персональними даними через безкоштовну версію. DeepL самі кажуть - для конфіденційних документів безкоштовна версія не підходить.

DeepL Pro (від $8.74/міс для індивідуального тарифу) працює інакше: текст шифрується, не зберігається після перекладу і не використовується для тренування. Для команд є тарифи Team ($28.74/юзер) і Business ($57.49/юзер) з додатковими гарантіями. Детальніше про можливості - у порівнянні DeepL і Google Translate.

ChatGPT і OpenAI¶

Тут складніше. За замовчуванням все, що ти пишеш у ChatGPT Free або Plus, використовується для тренування майбутніх моделей. Коли ти вставляєш контракт клієнта для перекладу - він потенційно стає частиною навчальних даних для наступної версії GPT.

Можна вимкнути: Settings → Data Controls → “Improve the model for everyone”. Але навіть з вимкненим тренуванням OpenAI зберігає логи розмов для моніторингу.

Для Team і Enterprise акаунтів тренування вимкнене за замовчуванням. API теж безпечніше: дані зберігаються лише 30 днів для моніторингу зловживань і ніколи не йдуть на тренування. Якщо вже працюєш з ChatGPT - є конкретні промпти і підходи для перекладу документів, які допомагають отримати кращий результат.

Google Translate¶

Безкоштовний Google Translate працює за загальними умовами Google. Компанія може аналізувати тексти для покращення сервісів. Конкретного обіцяння “ми не зберігаємо ваші переклади” для безкоштовної версії немає.

Google Cloud Translation API (платна версія) - інша справа. Google прямо заявляє: контент клієнтів не використовується для жодних інших цілей, крім надання послуги. Тексти не зберігаються після перекладу.

Є ще офлайн-режим у мобільному додатку - працює повністю на пристрої, без відправки даних на сервер. Але якість перекладу помітно нижча.

Claude (Anthropic)¶

З вересня 2025 року Anthropic використовує розмови з Claude Free, Pro і Max для тренування моделей - якщо ти не вимкнув це в налаштуваннях приватності. Раніше дані зберігались 30 днів, тепер - до 5 років для акаунтів з увімкненим тренуванням.

Режим інкогніто виключає конкретну розмову з тренувальних даних. API-доступ безпечніший: дані ніколи не йдуть на тренування, логи автоматично видаляються через 7 днів.

Microsoft Translator¶

Azure Translator має найсуворішу політику на ринку - “No-Trace”. Текст не зберігається ні до, ні після перекладу. Для компаній, які працюють з чутливими даними, це серйозний аргумент.

Але безкоштовні додатки (Microsoft Translator, Bing Translator, Edge) можуть зберігати невеликі фрагменти для покращення якості.

Реальні витоки: коли “я ж тільки раз вставив” закінчилось погано¶

Samsung і ChatGPT (2023)¶

Три окремі інциденти за 20 днів. Один інженер вставив конфіденційний вихідний код для пошуку бага. Другий завантажив стенограму внутрішньої наради. Третій оптимізував тестову послідовність для виявлення дефектів у чіпах.

Samsung запустив дисциплінарні розслідування проти всіх трьох, обмежив введення до 1024 байт на промпт і на місяці заблокував ChatGPT для всієї компанії. Пізніше доступ повернули, але з жорсткими внутрішніми правилами. Проблема не в тому що ШІ “вкрав” дані - а в тому що люди не розуміли, куди ці дані потрапляють.

Statoil і Translate.com (2017)¶

Норвезький нафтовий гігант Statoil (зараз Equinor, оборот $68 млрд) використовував безкоштовний Translate.com для внутрішніх документів. У вересні 2017 року журналісти NRK виявили, що контракти, плани скорочення персоналу, звільнювальні листи і навіть паролі стали доступні через звичайний пошук Google. Будь-хто міг їх знайти.

Причина: Translate.com зберігав тексти в хмарі для волонтерів-перекладачів і не забезпечив контроль доступу. Осло фондова біржа заблокувала доступ до сайту, але дані вже були публічними.

Чому це стосується перекладачів¶

Ці кейси - не тільки про великі корпорації. Якщо ти перекладач, який працює з юридичними документами, медичними висновками або корпоративними контрактами - один випадковий витік може означати позов від клієнта, втрату репутації і кінець бізнесу. За даними IBM (2024), середня вартість витоку даних глобально - $4.88 мільйонів. Для фрілансера навіть мінімальний штраф буде катастрофою.

До речі, витік конфіденційних даних - це окрема загроза від ШІ-галюцинацій у юридичних перекладах, але наслідки можуть бути ще серйознішими.

З 2018 року в ЄС видали понад 2 245 штрафів за порушення GDPR на загальну суму €5.65 мільярдів. За 2025 рік - €2.3 мільярди, на 38% більше попереднього року. Максимальний штраф - €20 мільйонів або 4% річного обороту (що більше).

Ось конкретні ризики для перекладача:

NDA. Підписав NDA з клієнтом і вставив його документ у безкоштовний ChatGPT? Формально - порушив угоду про нерозголошення. Навіть якщо витоку не було. Сам факт передачі даних третій стороні без згоди клієнта - це порушення.

Адвокатська таємниця. Юридичні документи захищені адвокатською таємницею. Завантаження в хмарний сервіс без гарантій безпеки може кваліфікуватися як порушення конфіденційності.

Медичні дані. Переклад виписок, діагнозів, медичних висновків - це обробка чутливих персональних даних за GDPR. Вимоги тут максимально жорсткі.

EU AI Act. Дедлайн повної відповідності для високоризикових систем - 2 серпня 2026 року. Це ще один рівень регуляції для компаній, які використовують ШІ для роботи з персональними даними. Розуміння різниці між LLM і класичним NMT допомагає оцінити, які інструменти підпадають під суворіші вимоги.

Чеклист: як захистити дані клієнтів при роботі з ШІ¶

1. Платні версії для конфіденційних документів¶

DeepL Pro, ChatGPT API, Google Cloud Translation API, Claude API, Azure Translator - всі мають політику незбереження даних. $8-10/міс за DeepL Pro - це менше ніж вартість одного втраченого клієнта. Безкоштовні версії - тільки для нечутливих текстів: меню ресторану, туристичні буклети, особисте листування.

2. Вимкни тренування на твоїх даних¶

ChatGPT: Settings → Data Controls → вимкни “Improve the model for everyone”. Claude: перевір Privacy Settings. Це не ідеально (логи все одно зберігаються тимчасово), але значно краще ніж дефолтні налаштування.

3. Анонімізуй перед перекладом¶

Перш ніж вставляти документ у ШІ, заміни реальні імена, адреси, номери рахунків на плейсхолдери: [ІМ’Я], [АДРЕСА], [НОМЕР]. Після перекладу поверни реальні дані. Додатковий крок, але для критичних документів він того вартий. Правильні промпти для перекладу теж допомагають контролювати, що модель робить з текстом.

4. Перевір, де фізично зберігаються дані¶

DeepL зберігає дані в ЄС (Німеччина, Фінляндія). OpenAI - переважно в США. Для GDPR важливо, щоб персональні дані не передавались за межі ЄС без відповідних гарантій. Якщо клієнти в ЄС - це має значення при виборі інструменту.

5. Документуй свою політику безпеки¶

Створи короткий документ: які інструменти використовуєш, які заходи безпеки застосовуєш, як обробляєш конфіденційні дані. Це захистить юридично і дасть перевагу перед конкурентами. Клієнти все частіше перевіряють кваліфікацію перекладача перед замовленням - і питання про безпеку даних стає стандартним.

6. Розглянь локальні моделі для максимально секретних документів¶

Для критично конфіденційних текстів існують моделі, що працюють офлайн на твоєму комп’ютері без відправки даних в інтернет. Якість поки поступається хмарним рішенням, але дані гарантовано нікуди не потрапляють.

FAQ¶

Чи безпечно використовувати DeepL для конфіденційних документів?¶

Безкоштовний DeepL - ні. Тексти зберігаються тимчасово і використовуються для покращення моделей. DeepL навіть забороняє перекладати тексти з персональними даними у безкоштовній версії. DeepL Pro (від $8.74/міс) - безпечно: тексти шифруються і видаляються одразу після перекладу.

ChatGPT використовує мої переклади для тренування?¶

За замовчуванням - так, на Free і Plus тарифах. Можна вимкнути в Settings → Data Controls. На Team і Enterprise тренування вимкнене за замовчуванням. Через API дані не використовуються для тренування ніколи.

Що робити, якщо вже вставляв конфіденційні документи в безкоштовний перекладач?¶

Припини використання безкоштовних версій для конфіденційних текстів. Оціни ризик - якщо є NDA, можливо варто повідомити клієнта. Перейди на платний тариф або API. Створи внутрішню політику обробки даних, щоб це не повторилось.

Чи підпадає робота перекладача під GDPR?¶

Так, якщо обробляєш персональні дані резидентів ЄС - а це майже завжди так при перекладі документів з іменами, адресами, медичною або фінансовою інформацією. GDPR стосується будь-якої обробки персональних даних, незалежно від розміру бізнесу.

Яка найбезпечніша альтернатива для перекладу секретних документів?¶

Для максимальної безпеки - локальні моделі перекладу, що працюють офлайн на твоєму комп’ютері. Для документів де потрібна юридична сила - завірений переклад у присяжного перекладача, який зв’язаний професійною таємницею і не використовує хмарні сервіси для роботи з оригіналами.

Спробуйте ChatsControl

AI-платформа для професійних перекладачів

Спробувати безкоштовно →