ИИ-перевод и конфиденциальность: что происходит с твоими данными

Что происходит с текстом в DeepL, ChatGPT и Google Translate - кто хранит данные, кто обучает на них модели, и как защитить документы клиентов.

Также: RU EN UK

Март 2023 года. Инженер Samsung вставляет конфиденциальный исходный код в ChatGPT, чтобы найти баг. Через неделю коллега загружает туда стенограмму внутреннего совещания. Третий - оптимизирует тестовую последовательность для выявления дефектов в чипах. За 20 дней компания с капитализацией $350 млрд трижды “слила” секретные данные в тренировочный датасет OpenAI. Если Samsung с армией безопасников не уберегся - ты как переводчик, который каждый день работает с конфиденциальными документами клиентов, должен четко понимать, что происходит с текстом после нажатия “Translate”.

Что происходит с текстом после нажатия “Translate”

Когда ты вставляешь текст в любой онлайн-переводчик - DeepL, Google Translate, ChatGPT - он не переводится магически на твоем компьютере. Текст шифруется и летит на серверы компании, иногда в Германию, иногда в США, иногда в несколько дата-центров одновременно.

Перевод возвращается за секунды, но что происходит с оригинальным текстом после? Вот тут начинается самое интересное. Разница между “удалили сразу” и “храним для обучения модели” - это разница между конфиденциальностью клиента и потенциальной утечкой его данных.

Главное правило: бесплатные версии почти всегда сохраняют и используют твой текст. Платные - обычно нет. Но “обычно” - опасное слово, когда речь идет о контракте клиента на €500 000. Поэтому разберем каждый сервис отдельно.

Кто хранит, кто удаляет: сравнение ИИ-переводчиков

Сервис Тариф Хранит текст? Обучает на данных? GDPR
DeepL Бесплатный Да, временно Да Частично
DeepL Pro (от $8.74/мес) Нет Нет Да
ChatGPT Free / Plus По умолчанию да Да (можно отключить) Частично
ChatGPT API / Enterprise Нет Нет Да
Google Translate Бесплатный Да Вероятно Частично
Google Cloud Translation API Нет Нет Да
Claude Free / Pro Да (с 09.2025) По умолчанию да Частично
Claude API Нет (логи 7 дней) Нет Да
Microsoft Бесплатные приложения Частично Возможно Частично
Microsoft Azure Translator Нет (No-Trace) Нет Да

Теперь детали.

DeepL: бесплатный vs Pro

Бесплатный DeepL хранит текст временно и использует для улучшения нейросетей. В условиях использования прямо написано: ты не имеешь права переводить тексты с персональными данными через бесплатную версию. DeepL сами говорят - для конфиденциальных документов бесплатная версия не подходит.

DeepL Pro (от $8.74/мес для индивидуального тарифа) работает иначе: текст шифруется, не хранится после перевода и не используется для обучения. Для команд есть тарифы Team ($28.74/юзер) и Business ($57.49/юзер) с дополнительными гарантиями. Подробнее о возможностях - в сравнении DeepL и Google Translate.

ChatGPT и OpenAI

Тут сложнее. По умолчанию все, что ты пишешь в ChatGPT Free или Plus, используется для обучения будущих моделей. Когда ты вставляешь контракт клиента для перевода - он потенциально становится частью обучающих данных для следующей версии GPT.

Можно отключить: Settings → Data Controls → “Improve the model for everyone”. Но даже с выключенным обучением OpenAI хранит логи разговоров для мониторинга.

Для Team и Enterprise аккаунтов обучение отключено по умолчанию. API тоже безопаснее: данные хранятся только 30 дней для мониторинга злоупотреблений и никогда не идут на обучение. Если уже работаешь с ChatGPT - есть конкретные промпты и подходы для перевода документов, которые помогают получить лучший результат.

Google Translate

Бесплатный Google Translate работает по общим условиям Google. Компания может анализировать тексты для улучшения сервисов. Конкретного обещания “мы не храним ваши переводы” для бесплатной версии нет.

Google Cloud Translation API (платная версия) - другое дело. Google прямо заявляет: контент клиентов не используется ни для каких других целей, кроме предоставления услуги. Тексты не хранятся после перевода.

Есть еще офлайн-режим в мобильном приложении - работает полностью на устройстве, без отправки данных на сервер. Но качество перевода заметно ниже.

Claude (Anthropic)

С сентября 2025 года Anthropic использует разговоры с Claude Free, Pro и Max для обучения моделей - если ты не отключил это в настройках приватности. Раньше данные хранились 30 дней, теперь - до 5 лет для аккаунтов с включенным обучением.

Режим инкогнито исключает конкретный разговор из обучающих данных. API-доступ безопаснее: данные никогда не идут на обучение, логи автоматически удаляются через 7 дней.

Microsoft Translator

Azure Translator имеет самую строгую политику на рынке - “No-Trace”. Текст не хранится ни до, ни после перевода. Для компаний, которые работают с чувствительными данными, это серьезный аргумент.

Но бесплатные приложения (Microsoft Translator, Bing Translator, Edge) могут хранить небольшие фрагменты для улучшения качества.

Реальные утечки: когда “я же только раз вставил” плохо закончилось

Samsung и ChatGPT (2023)

Три отдельных инцидента за 20 дней. Один инженер вставил конфиденциальный исходный код для поиска бага. Второй загрузил стенограмму внутреннего совещания. Третий оптимизировал тестовую последовательность для выявления дефектов в чипах.

Samsung запустил дисциплинарные расследования против всех троих, ограничил ввод до 1024 байт на промпт и на месяцы заблокировал ChatGPT для всей компании. Позже доступ вернули, но с жесткими внутренними правилами. Проблема не в том что ИИ “украл” данные - а в том что люди не понимали, куда эти данные попадают.

Statoil и Translate.com (2017)

Норвежский нефтяной гигант Statoil (сейчас Equinor, оборот $68 млрд) использовал бесплатный Translate.com для внутренних документов. В сентябре 2017 года журналисты NRK обнаружили, что контракты, планы сокращения персонала, увольнительные письма и даже пароли стали доступны через обычный поиск Google. Любой мог их найти.

Причина: Translate.com хранил тексты в облаке для волонтеров-переводчиков и не обеспечил контроль доступа. Фондовая биржа Осло заблокировала доступ к сайту, но данные уже были публичными.

Почему это касается переводчиков

Эти кейсы - не только про большие корпорации. Если ты переводчик, который работает с юридическими документами, медицинскими заключениями или корпоративными контрактами - одна случайная утечка может означать иск от клиента, потерю репутации и конец бизнеса. По данным IBM (2024), средняя стоимость утечки данных глобально - $4.88 миллионов. Для фрилансера даже минимальный штраф будет катастрофой.

Утечка конфиденциальных данных - это отдельная угроза от ИИ-галлюцинаций в юридических переводах, но последствия могут быть еще серьезнее.

GDPR и юридические последствия

С 2018 года в ЕС выдали более 2 245 штрафов за нарушения GDPR на общую сумму €5.65 миллиардов. За 2025 год - €2.3 миллиарда, на 38% больше предыдущего года. Максимальный штраф - €20 миллионов или 4% годового оборота (что больше).

Вот конкретные риски для переводчика:

NDA. Подписал NDA с клиентом и вставил его документ в бесплатный ChatGPT? Формально - нарушил соглашение о неразглашении. Даже если утечки не было. Сам факт передачи данных третьей стороне без согласия клиента - это нарушение.

Адвокатская тайна. Юридические документы защищены адвокатской тайной. Загрузка в облачный сервис без гарантий безопасности может квалифицироваться как нарушение конфиденциальности.

Медицинские данные. Перевод выписок, диагнозов, медицинских заключений - это обработка чувствительных персональных данных по GDPR. Требования тут максимально жесткие.

EU AI Act. Дедлайн полного соответствия для высокорисковых систем - 2 августа 2026 года. Это еще один уровень регуляции для компаний, использующих ИИ для работы с персональными данными. Понимание разницы между LLM и классическим NMT помогает оценить, какие инструменты подпадают под более строгие требования.

Чеклист: как защитить данные клиентов при работе с ИИ

1. Платные версии для конфиденциальных документов

DeepL Pro, ChatGPT API, Google Cloud Translation API, Claude API, Azure Translator - все имеют политику нехранения данных. $8-10/мес за DeepL Pro - это меньше чем стоимость одного потерянного клиента. Бесплатные версии - только для нечувствительных текстов: меню ресторана, туристические буклеты, личная переписка.

2. Отключи обучение на твоих данных

ChatGPT: Settings → Data Controls → отключи “Improve the model for everyone”. Claude: проверь Privacy Settings. Это не идеально (логи все равно хранятся временно), но значительно лучше дефолтных настроек.

3. Анонимизируй перед переводом

Прежде чем вставлять документ в ИИ, замени реальные имена, адреса, номера счетов на плейсхолдеры: [ИМЯ], [АДРЕС], [НОМЕР]. После перевода верни реальные данные. Дополнительный шаг, но для критичных документов он того стоит. Правильные промпты для перевода тоже помогают контролировать, что модель делает с текстом.

4. Проверь, где физически хранятся данные

DeepL хранит данные в ЕС (Германия, Финляндия). OpenAI - преимущественно в США. Для GDPR важно, чтобы персональные данные не передавались за пределы ЕС без соответствующих гарантий. Если клиенты в ЕС - это имеет значение при выборе инструмента.

5. Документируй свою политику безопасности

Создай короткий документ: какие инструменты используешь, какие меры безопасности применяешь, как обрабатываешь конфиденциальные данные. Это защитит юридически и даст преимущество перед конкурентами. Клиенты все чаще проверяют квалификацию переводчика перед заказом - и вопрос о безопасности данных становится стандартным.

6. Рассмотри локальные модели для максимально секретных документов

Для критически конфиденциальных текстов существуют модели, работающие офлайн на твоем компьютере без отправки данных в интернет. Качество пока уступает облачным решениям, но данные гарантированно никуда не попадают.

FAQ

Безопасно ли использовать DeepL для конфиденциальных документов?

Бесплатный DeepL - нет. Тексты хранятся временно и используются для улучшения моделей. DeepL даже запрещает переводить тексты с персональными данными в бесплатной версии. DeepL Pro (от $8.74/мес) - безопасно: тексты шифруются и удаляются сразу после перевода.

ChatGPT использует мои переводы для обучения?

По умолчанию - да, на Free и Plus тарифах. Можно отключить в Settings → Data Controls. На Team и Enterprise обучение отключено по умолчанию. Через API данные не используются для обучения никогда.

Что делать, если уже вставлял конфиденциальные документы в бесплатный переводчик?

Прекрати использование бесплатных версий для конфиденциальных текстов. Оцени риск - если есть NDA, возможно стоит уведомить клиента. Перейди на платный тариф или API. Создай внутреннюю политику обработки данных, чтобы это не повторилось.

Подпадает ли работа переводчика под GDPR?

Да, если обрабатываешь персональные данные резидентов ЕС - а это почти всегда так при переводе документов с именами, адресами, медицинской или финансовой информацией. GDPR касается любой обработки персональных данных, независимо от размера бизнеса.

Какая самая безопасная альтернатива для перевода секретных документов?

Для максимальной безопасности - локальные модели перевода, работающие офлайн на твоем компьютере. Для документов где нужна юридическая сила - заверенный перевод у присяжного переводчика, который связан профессиональной тайной и не использует облачные сервисы для работы с оригиналами.

Попробуйте ChatsControl

AI-платформа для профессиональных переводчиков

Попробовать бесплатно →