Оцифровка рукописных документов с AI-OCR и перевод: полный гайд

Бабушкино свидетельство о рождении 1952 года - зеленоватая книжечка, внутри имя ребенка вписано от руки фиолетовыми чернилами, круглая печать ЗАГСа уже почти не читается. Тебе нужно перевести это на немецкий для Rentenversicherung - подтвердить стаж или родственные связи. Открываешь фото в Google Translate - он видит размытую картинку и выдает бессмыслицу. Загружаешь в обычный OCR - половина букв не распознана, потому что это не печатный текст, а почерк советского регистратора из районного ЗАГСа. Знакомо? Тогда разберемся: какие AI-OCR инструменты реально справляются с рукописной кириллицей, сколько это стоит, и когда без человека все равно не обойтись.

Почему рукописные документы - это отдельная проблема¶

Обычный OCR (оптическое распознавание символов) создавался для печатного текста. Стандартные шрифты, четкие границы букв, высокий контраст - тут точность давно перевалила за 99%. По данным AIMultiple, ABBYY FineReader дает 99.8% на качественном печатном тексте, Google Cloud Vision - 99.1%. Красота.

Но стоит подсунуть рукописный текст - и точность обрушивается.

Что происходит с точностью¶

Согласно бенчмарку Suparse (2026), типичная точность распознавания рукописного текста падает до 60-85% - в зависимости от качества почерка, языка и состояния документа. Для кириллицы результаты еще хуже, потому что большинство OCR-моделей обучались в первую очередь на латинских текстах.

Почему рукописная кириллица - отдельный ад:

Ш, Щ, И, Л, М - в скорописи эти буквы выглядят почти одинаково. Серия вертикальных палочек, и отличаются они только подъемами и хвостиками, которые при быстром письме просто исчезают
Т пишется как m - советский курсив имеет характерную форму строчной “т” с тремя вертикальными палочками, которую OCR запросто принимает за латинскую m
Е и Ё - точки над Ё в рукописи почти никогда не ставили. А для перевода имен это критично: “Семен” и “Семён” - это разные варианты транслитерации
Связное письмо - буквы сливаются в непрерывную линию, и алгоритму приходится “угадывать”, где заканчивается одна буква и начинается другая
Индивидуальность почерка - каждый человек пишет по-своему, и один и тот же документ (трудовая книжка) может содержать 15-20 разных почерков

К этому добавь возраст документа: чернила выцветают за 40-70 лет, бумага желтеет, печати расплываются, сгибы создают линии, которые OCR принимает за текст.

Если ты работаешь с печатными сканами - у нас есть отдельная статья про OCR и перевод сканированных документов, где разбираем процесс для обычных PDF и фото. Тут же сосредоточимся именно на рукописном тексте - потому что это совсем другой уровень сложности.

Как пишет один генеалог в блоге:

I tried using standard OCR on my grandmother’s handwritten birth certificate from the Soviet era. The result was unreadable gibberish. Then I tried Transkribus with a Russian handwriting model - and it actually got about 80% of the text right. The remaining 20% I had to correct manually, but it saved me hours.

Вот это и есть реальная картина. AI-OCR делает 70-85% работы, а остальное дорабатывает человек. Не “нажми кнопку и получи текст”, а полуавтоматический процесс.

Какие рукописные документы чаще всего нужно оцифровать и перевести¶

Прежде чем выбирать инструмент - определи, какой именно у тебя документ. От этого зависит и сложность, и подход.

Советские свидетельства о рождении и браке¶

Самый распространенный кейс. Свидетельства советского образца - бланки с печатными рубриками (фамилия, имя, отчество, дата, место), где данные вписаны от руки. Чернила - фиолетовые или синие. Печати круглые, часто размытые.

Сложность: средняя. Структура предсказуемая, полей мало, но почерк и состояние бумаги бывают ужасными. Если свидетельству 70+ лет - жди сюрпризов.

Советские трудовые книжки¶

Трудовая книжка - пожалуй, самый сложный документ для любого OCR. 10-40 разворотов записей разными почерками, разными чернилами, с исправлениями, зачеркиваниями и штампами, перекрывающими текст. Добавь аббревиатуры предприятий, которых уже не существует (ПО “Электроприбор”, НПО “Химволокно”), и получишь задачу, с которой ни один AI не справится полностью самостоятельно.

Сложность: высокая. Даже опытному переводчику требуется 1-3 дня на одну трудовую.

Медицинские карты и заключения¶

Рукописные медицинские записи - это отдельная вселенная. Врачебный почерк плюс латинские термины вперемешку с кириллицей, плюс сокращения, понятные только коллегам-медикам. OCR на таких документах обычно дает не более 40-50% точности.

Сложность: очень высокая. Часто нужна консультация медика для расшифровки, а потом уже перевод.

Архивные документы (до 1950-х)¶

Метрические книги, справки из архивов, церковные записи - документы дореволюционного и раннесоветского периода. Могут содержать дореформенную орфографию (ять, i десятеричное, фита), церковнославянские элементы, другие шрифты. Для таких документов нужны специализированные AI-модели.

Сложность: максимальная. Без специальных инструментов типа Transkribus с моделями для старорусского текста тут делать нечего.

Личные письма и дневники¶

Менее типичный, но все же встречающийся кейс - перевод личной переписки для иммиграционных целей (подтверждение родственных связей, история семьи) или для генеалогических исследований. Здесь самый “свободный” почерк и полное отсутствие структуры.

Сводная таблица сложности¶

Тип документа	Сложность OCR	Типичная точность AI	Когда нужен
Свидетельство о рождении/браке	Средняя	70-80%	Rentenversicherung, Standesamt, USCIS, алия
Трудовая книжка	Высокая	50-65%	Rentenversicherung, Jobcenter, подтверждение стажа
Медицинская карта	Очень высокая	30-50%	Страховки, медицинское лечение за рубежом
Архивные документы (до 1950)	Максимальная	40-70% (со спецмоделями)	Гражданство по происхождению, генеалогия
Личные письма	Высокая	50-75%	Иммиграция, семейная история

AI-OCR инструменты: сравнение для рукописных документов¶

Рынок OCR в 2026 году делится на три категории: облачные API от Big Tech, специализированные инструменты для рукописного текста и мультимодальные языковые модели. Каждая категория имеет свои плюсы и минусы - и ни одна не идеальна для всех случаев.

Облачные API: Google, Azure, AWS, ABBYY¶

Это тяжелая артиллерия - сервисы, созданные крупными компаниями для промышленного OCR. Основное преимущество - высокая точность на печатном тексте и хорошая поддержка кириллицы. На рукописном - результаты хуже, но все равно лучше, чем у бесплатных решений.

Сервис	Точность (печатный)	Точность (рукописный)	Поддержка кириллицы	Цена (2026)
Google Cloud Vision	99.1%	~63-70% на курсиве	Отличная (укр, рус)	1000 стр/мес бесплатно, потом $1.50/1000 стр
Azure Document Intelligence	98.5%	~91% (WER 8.67%)	Хорошая	$1/1000 стр
AWS Textract	98%+	~89.5% (WER 10.5%)	Хорошая	$1.50/1000 стр
ABBYY FineReader	99.8%	~75-85%	Отличная (198 языков)	от $16/мес

По данным бенчмарка GetOmni, Azure Document Intelligence показывает лучший результат на рукописном тексте среди облачных API - WER (Word Error Rate) всего 8.67%, что означает примерно 91% точности на уровне слов. Google Cloud Vision идет следом, но на курсивном рукописном тексте часто проседает до 63-70%.

ABBYY стоит отдельно: это не облачный API, а десктопное приложение (есть и SDK для разработчиков), но его преимущество - лучшая предобработка изображений и специализация на документах. Для советских документов с печатями и штампами ABBYY часто работает лучше чисто облачных решений.

Специализированные инструменты: Transkribus и Pen to Print¶

Эти инструменты создавались именно для рукописного текста - в отличие от облачных API, которые оптимизированы прежде всего для печатного.

Инструмент	Специализация	Модели для русского/кириллицы	Цена (2026)
Transkribus	Исторические документы, рукописи	5 моделей для старорусского	50 стр/мес бесплатно, от 19.90 EUR/год
Pen to Print	Рукописные заметки, личные записи	Ограниченная	Бесплатно (базовая), PRO от $3.99/мес

Transkribus заслуживает отдельного разговора. Это проект, выросший из европейского академического исследования, и у него есть то, чего нет ни у Google, ни у Azure - 5 специализированных AI-моделей для транскрипции старорусского рукописного текста. Модели тренировались на реальных исторических документах: церковных метрических книгах, судебных актах XVIII-XIX веков, дореформенных текстах.

Как описывают разработчики Transkribus:

The models were trained on a variety of historical Russian documents, including church records, court documents from the 18th and 19th centuries, and pre-reform texts. They can handle both old and modern Russian handwriting with varying degrees of accuracy.

Для советских документов 1930-1980-х Transkribus - один из лучших вариантов, особенно если почерк аккуратный или хотя бы стандартный для своей эпохи. Бесплатный тариф (50 страниц в месяц) позволяет обработать несколько документов без затрат.

Pen to Print - более простой инструмент, ориентированный на современный рукописный текст (заметки, дневники, конспекты). Для советских документов подходит хуже: нет специфических моделей для кириллического курсива, и с выцветшими чернилами справляется плохо.

Мультимодальные LLM: GPT-4o, Claude, Gemini¶

А вот это - самая интересная категория. Мультимодальные языковые модели не просто распознают текст - они “видят” изображение целиком и могут сразу распознать, перевести и объяснить контекст. Загружаешь фото бабушкиного свидетельства и спрашиваешь: “Что тут написано? Переведи на немецкий.” Одна модель - одна операция.

Модель	Точность (чистый рукописный)	Точность (сложный)	Галлюцинации	Стоимость
GPT-4o	~85%	~65-75%	Средний уровень	$20/мес (ChatGPT Plus)
Claude	~85%	~70%	Самый низкий - 0.09%	$20/мес (Claude Pro)
Gemini Flash 2.0	~80%	~60-70%	Средний уровень	~6000 стр за $1

По данным сравнения CodeSota, GPT-4o и Claude показывают примерно одинаковую точность OCR на чистом рукописном тексте - около 85%. Но на сложных документах (выцветшие чернила, перекрывающие печати, плохое качество скана) GPT-4o проседает чуть сильнее.

Главное преимущество Claude - минимальный уровень галлюцинаций (0.09% по тому же бенчмарку). Это критично для юридических документов: лучше модель скажет “не могу прочитать”, чем выдумает несуществующий текст. Подробнее о рисках галлюцинаций при переводе - в нашей статье про ИИ-галлюцинации в юридическом переводе.

Gemini Flash 2.0 выигрывает по цене: примерно 6000 страниц за $1 при использовании через API. Если нужно обработать большой архив документов - это самый экономичный вариант. Но точность на сложных рукописных документах ниже, чем у GPT-4o и Claude.

Какой инструмент для какой задачи¶

Вот мой субъективный рейтинг - по задачам, а не по абстрактным “лучший/худший”:

Одно-два свидетельства для личного понимания - GPT-4o или Claude (загрузи фото в чат, получи распознавание + перевод за минуту)
Советская трудовая книжка - Transkribus (для распознавания) + человек (для расшифровки аббревиатур и перевода)
Архивные документы до 1917 года - Transkribus с моделью для старорусского, ничего лучше пока нет
Пакетная обработка 50+ страниц - Azure Document Intelligence или ABBYY (промышленное качество)
Максимальная экономия - Gemini Flash 2.0 через API (6000 страниц за $1)
Юридически значимые документы - любой OCR как черновик + проверка присяжным переводчиком

Пошаговая инструкция: от скана до готового перевода¶

Шаг 1: отсканируй правильно¶

80% успеха OCR - это качество входного изображения. Плохой скан = плохое распознавание, и никакой AI это не исправит.

Параметры сканирования:

Разрешение: 300 DPI минимум, 400-600 DPI для документов с мелким рукописным текстом или выцветшими чернилами
Формат: PNG или PDF без сжатия. JPG с высоким сжатием “съедает” тонкие линии букв - для рукописного текста это критично
Цвет: полноцветный режим (24-bit color). Не черно-белый - для рукописных документов оттенки чернил помогают OCR отличить текст от фона и печатей
Наклон: документ должен лежать ровно, без перекоса. Даже 2-3 градуса наклона заметно снижают точность на рукописном тексте
Освещение: равномерное, без теней. Если сканируешь телефоном - используй приложение (Adobe Scan, Microsoft Lens) вместо обычной камеры

Что делать, если скан уже плохой:

Бывает, что оригинал документа далеко - в архиве, у родственников, в Украине, откуда его сложно получить. А у тебя есть только фото из мессенджера, сделанное кем-то на бегу. Варианты:

Попроси переснять с лучшим качеством - это всегда лучше, чем пытаться “вытащить” текст из мутного фото
Если переснять невозможно - пропусти фото через предобработку: увеличь контрастность, убери шум, выпрями перспективу (ScannerPro, GIMP, Paint.NET)
Для совсем безнадежных случаев попробуй мультимодальные LLM - GPT-4o и Claude “понимают” контекст документа и могут угадать нечитаемые слова по окружению

Шаг 2: выбери инструмент и обработай¶

Зависит от типа документа и твоей цели.

Для быстрого понимания “что тут написано”:

Загрузи фото в ChatGPT или Claude
Напиши промпт: “Это советское свидетельство о рождении. Распознай весь текст, включая рукописные части, печати и штампы. Если какие-то части нечитаемые - укажи это”
Получишь распознанный текст за 30-60 секунд

Для качественного OCR с последующим переводом:

Загрузи скан в Transkribus (для рукописных) или ABBYY FineReader (для смешанных документов)
Выбери модель для русского языка. В Transkribus: одна из 5 моделей для русского рукописного текста. В ABBYY: язык распознавания “русский” или “украинский”
Запусти распознавание
Проверь результат - исправь ошибки вручную. Особенно внимательно: имена, даты, номера документов

Для пакетной обработки (архивы, десятки страниц):

Используй Azure Document Intelligence API или ABBYY SDK
Настрой пайплайн: загрузка → предобработка → OCR → экспорт в текстовый формат
Пост-обработка: скрипт для исправления типичных ошибок (замена латинских букв на похожие кириллические и т.д.)

Шаг 3: проверь и исправь результат OCR¶

Даже лучший AI-OCR ошибается на рукописном тексте. Обязательно проверь:

Имена и фамилии - это первое, что проверяет любое ведомство. “Иванова” или “Ивамова”? OCR может не отличить “н” от “м” в курсиве
Даты - “1952” или “1962”? Рукописные цифры 5 и 6 бывают очень похожи
Номера документов - серия и номер свидетельства, номер актовой записи
Печати - текст на печатях часто распознается хуже всего
Буквы Ш/Щ/И/Л - проверяй каждое слово, где по контексту могут быть эти буквы

Типичная ошибка: OCR распознает кириллическую “С” как латинскую “C”, “В” как “B”, “Р” как “P”. Визуально они идентичны, но это разные символы в разных кодовых таблицах. Переводчик или Translation Memory потом не может работать с таким текстом. В Tesseract это решается параметром -l rus или -l ukr, в ABBYY - явным выбором языка распознавания.

Шаг 4: переведи¶

Здесь три варианта, и выбор зависит от цели перевода.

Вариант A: полностью своими силами (AI-перевод)

Распознанный текст переводишь через ChatGPT, Claude, DeepL или Google Translate. Подходит, если перевод нужен для личного понимания или как черновик.

Плюсы: бесплатно или дешево, быстро (минуты). Минусы: нет юридической силы, могут быть ошибки, некоторые ведомства не принимают AI-переводы.

Вариант B: AI + профессиональный переводчик

Делаешь AI-перевод как черновик, а потом отдаешь профессиональному переводчику на вычитку и заверение. Экономишь время переводчика (и свои деньги), потому что он не набирает текст с нуля, а проверяет и корректирует готовый.

Плюсы: быстрее и дешевле, чем полностью ручной перевод. Черновик от AI дает переводчику контекст. Минусы: все равно стоит денег. Не каждый переводчик согласится работать с чужим черновиком.

В ChatsControl это работает примерно так: загружаешь фото документа, AI делает предварительное распознавание и черновой перевод, а присяжный переводчик проверяет результат вручную, вносит правки и заверяет. На выходе - PDF с заверенным переводом. Для чистых рукописных документов это работает хорошо; если почерк совсем нечитаемый, переводчик может попросить лучший скан или дополнительные документы для сверки.

Вариант C: полностью ручной перевод

Классический подход: переводчик сам читает оригинал, сам набирает текст, сам переводит. Без AI.

Плюсы: максимальная точность, переводчик с опытом работы с советскими документами знает все нюансы. Минусы: дороже, дольше (1-5 дней на один документ для трудовой книжки), зависишь от загрузки переводчика.

Как рекомендуют юристы:

For immigration applications, always verify that your translated documents meet the specific requirements of the target country’s immigration authority. A professional translator familiar with both the source and target legal systems will catch nuances that automated tools miss.

Когда AI-OCR не справляется¶

AI-OCR - мощный инструмент, но у него есть четкие границы. Вот ситуации, где AI дает неприемлемый результат и нужен человек.

Документы в плохом состоянии¶

Если бумага порвана, залита водой, обгорела по краям или просто настолько старая, что чернила слились с фоном - никакой AI не вытащит текст, которого физически не видно. В таких случаях иногда помогают:

Инфракрасная съемка (выделяет чернила на фоне пятен)
Мультиспектральная обработка (лаборатории реставрации в архивах)
Ультрафиолетовая лампа при сканировании (помогает с выцветшими чернилами)

Если документ уничтожен или сильно поврежден из-за войны, может быть проще получить дубликат через Дию или архив, чем пытаться оцифровать нечитаемый оригинал.

Врачебный почерк¶

Это не шутка и не стереотип - рукописные медицинские записи действительно нечитаемы для большинства AI-систем. Врачи пишут быстро, используют латинские аббревиатуры вперемешку с кириллицей, и даже другие врачи не всегда могут прочитать записи коллег. OCR на таких документах дает 30-50% точности, что бесполезно.

Решение: человек с медицинским образованием расшифровывает записи, потом переводчик переводит расшифровку.

Церковнославянский и дореформенная орфография¶

Документы до 1917-1918 года могут содержать элементы церковнославянского языка, дореформенную орфографию с ять (ѣ), фитой (ѳ), десятеричным i - большинство современных OCR-систем не обучены на таких текстах. Исключение - Transkribus с его специализированными моделями, но даже они требуют ручной проверки.

Подробнее о специфике дореволюционных и советских документов мы писали в отдельной статье.

Смешанные языки в одном документе¶

Советские документы из национальных республик часто содержат два языка - например, украинский и русский на одном бланке. Печати могут быть на одном языке, рукописный текст на другом, а штампы - на третьем. OCR с настройкой на один язык ошибается на фрагментах другого языка. Мультимодальные LLM справляются лучше, но и они путаются.

Юридически критичные документы¶

Даже если AI-OCR распознал текст на 95% - оставшиеся 5% могут содержать именно ту деталь, от которой зависит решение ведомства. Номер актовой записи, дата, буква в фамилии. Для документов, которые подаются в суд, Ausländerbehörde, Standesamt, USCIS - заверенный перевод от присяжного переводчика обязателен. AI-OCR может быть черновиком, но не финальным продуктом.

Список типичных ошибок, из-за которых ведомства отклоняют переводы, мы собрали в отдельном материале.

Советы для лучших результатов¶

При сканировании¶

Используй планшетный сканер, не телефон - если есть возможность. Сканер дает равномерное освещение и точное разрешение. Если только телефон - используй приложение-сканер (Adobe Scan, Microsoft Lens), а не обычную камеру
300 DPI - минимум, 600 DPI - идеал - для рукописного текста чем больше разрешение, тем лучше. Лишние мегабайты файла окупятся точностью распознавания
Цветной режим, не ч/б - оттенки помогают OCR отличить текст от фона, печати от записей, исправления от основного текста
Сканируй развороты отдельно - не пытайся уместить две страницы трудовой на один скан. Каждая страница - отдельный файл
Не обрезай поля - OCR использует поля документа для определения ориентации и масштаба

При работе с OCR¶

Указывай язык явно - не полагайся на автоопределение. Если документ на русском - ставь “русский”, если двуязычный - указывай оба языка
Пробуй несколько инструментов - для сложных документов результат одного OCR можно сравнить с другим. Azure может прочитать то, что не прочитал Google, и наоборот
Проверяй имена по другим документам - если имя в свидетельстве о рождении нечитаемо, сверь с паспортом, свидетельством о браке или другим документом того же человека
Не доверяй OCR числа - рукописные цифры - слабое место любого OCR. Дату “15.03.1952” обязательно проверь по оригиналу
Сохраняй оригинальный файл - не перезаписывай скан после обработки. Если нужно будет перепроверить - оригинал должен быть под рукой

При заказе перевода¶

Отправляй лучший скан, какой можешь получить - чем лучше качество скана, тем быстрее и точнее работа переводчика. Это напрямую влияет на цену
Предупреди о рукописном тексте - многие переводчики берут доплату за рукописные документы. Лучше узнать об этом заранее, чем получить сюрприз в счете
Приложи дополнительные документы для сверки - паспорт, другие свидетельства, любой документ с теми же именами/датами. Это помогает переводчику расшифровать нечитаемые фрагменты
Уточни требования ведомства - Standesamt в Германии, USCIS в США, Сохнут в Израиле - у каждого свои требования к переводу. Убедись, что переводчик их знает
Спроси про доверенность и апостиль - если нужен не только перевод, но и легализация документа

Стоимость и сроки¶

DIY: оцифровка своими силами¶

Что делаешь	Инструмент	Стоимость	Время
Быстрый OCR + перевод для себя	ChatGPT / Claude ($20/мес)	~$0.5-1 за документ	5-15 минут
Качественный OCR рукописного	Transkribus (бесплатные 50 стр)	Бесплатно	15-30 минут
Пакетный OCR	Azure Document Intelligence	~$1 за 1000 стр	Зависит от объема
Пакетный OCR (десктоп)	ABBYY FineReader ($16/мес)	~$0.5-2 за документ	10-20 минут
Максимально бюджетный OCR	Gemini Flash 2.0 API	~6000 стр за $1	Зависит от настройки
Перевод распознанного текста	DeepL / Google Translate	Бесплатно	1-2 минуты

Профессиональный перевод рукописных документов¶

Рукописные документы стоят дороже печатных - это факт. Переводчик тратит дополнительное время на расшифровку почерка, сверку с контекстом и описание нечитаемых фрагментов. По рынку 2026 года надбавка за рукописный текст составляет 30-50%.

Документ	Цена в Украине	Цена в Германии (BDÜ переводчики)	Сроки
Свидетельство о рождении (рукописное)	300-600 грн ($7-15)	30-60 EUR	1-3 дня
Свидетельство о браке (рукописное)	300-600 грн ($7-15)	30-60 EUR	1-3 дня
Трудовая книжка (10-20 стр)	800-2000 грн ($20-50)	80-200 EUR	2-7 дней
Трудовая книжка (20-40 стр)	1500-4000 грн ($37-100)	150-400 EUR	5-14 дней
Медицинская карта (за страницу)	100-200 грн ($2.5-5)	15-30 EUR	1-2 дня/стр
Архивная справка / метрика	400-1000 грн ($10-25)	40-100 EUR	2-5 дней

Цены ориентировочные, зависят от конкретного переводчика, сложности почерка и срочности. Германские цены включают заверение (beglaubigte Übersetzung).

Когда что выгоднее¶

1-2 документа для себя - DIY через ChatGPT/Claude, стоимость практически нулевая
1-3 документа для подачи в ведомство - профессиональный переводчик, без вариантов. Экономия на переводе может обернуться отказом
10+ страниц трудовой - AI-OCR как черновик + профессиональный переводчик. Экономишь 20-40% от стоимости полностью ручного перевода
Архив 50+ страниц - пакетный OCR (Azure/ABBYY) + профессиональная вычитка. Без автоматизации это будет стоить тысячи евро

Если у тебя нет оригинала документа - потому что он остался на оккупированной территории или утерян из-за войны - стоимость и сроки могут быть другими, потому что сначала нужно получить дубликат или найти альтернативный способ подтверждения.

FAQ¶

Можно ли перевести рукописный документ только с помощью AI, без человека?¶

Для личного использования - да. Если тебе нужно понять, что написано в бабушкином свидетельстве, ChatGPT или Claude справятся за минуту. Для официальных целей (подача в ведомство, суд, иммиграционные органы) - нет. AI-перевод не имеет юридической силы, и многие ведомства прямо отклоняют AI-переводы. Нужен перевод от присяжного переводчика с заверением.

Какой AI-OCR лучше всего распознает рукописную кириллицу?¶

Зависит от типа документа. Для советских и дореволюционных документов - Transkribus с его специализированными моделями для русского рукописного текста. Для более современных рукописных документов - Azure Document Intelligence (WER 8.67% - лучший результат среди облачных API). Для быстрого одноразового распознавания - GPT-4o или Claude (загрузил фото, получил текст).

Сколько стоит перевод рукописного документа по сравнению с печатным?¶

Дороже на 30-50%. Переводчик тратит дополнительное время на расшифровку почерка, сверку непонятных слов с другими документами и описание нечитаемых фрагментов. Трудовая книжка на 20 страниц с рукописным текстом может стоить 80-200 EUR у немецкого переводчика, тогда как 20 страниц печатного текста - 40-100 EUR.

Что делать, если AI не может прочитать часть документа?¶

Несколько вариантов: 1) Попробуй другой инструмент - то, что не прочитал Google Cloud Vision, может прочитать Azure или GPT-4o. 2) Улучши скан - увеличь контраст, примени фильтры. 3) Сверь с другими документами - если не читается имя в свидетельстве о рождении, посмотри в паспорте. 4) Для юридических документов - честно укажи в переводе: “[illegible]” или “[нечитаемо]”. Это лучше, чем угадывать и ошибиться.

Нужно ли переводить печати и штампы на рукописных документах?¶

Да, для большинства ведомств. USCIS требует перевод всего, что есть на документе - включая печати, штампы, пометки на полях и даже зачеркивания. Standesamt в Германии обычно тоже. Если печать нечитаемая - переводчик указывает: “Печать: [частично нечитаемо], видимый текст: …” Это нормальная практика.

Transkribus бесплатный? Хватит ли бесплатного тарифа?¶

Transkribus дает 50 бесплатных страниц в месяц. Для перевода одного свидетельства (1-2 страницы) или даже небольшой трудовой книжки (10-15 страниц) - вполне хватит. Если нужно больше - платные тарифы начинаются от 19.90 EUR в год (500 страниц). Для сравнения: обработка тех же 500 страниц через Azure API обойдется примерно в $0.75.

Можно ли оцифровать документ с помощью AI-OCR, если оригинал утерян и есть только фото из мессенджера?¶

Можно попробовать, но качество будет ниже. Фото из мессенджера обычно сжаты, часто с плохим освещением и наклоном. GPT-4o и Claude справляются с такими фото лучше, чем классические OCR, потому что “понимают” контекст документа. Но для официального перевода все равно постарайся получить лучший скан - попроси родственников переснять документ при хорошем освещении, ровно, с приложением-сканером. Если оригинал документа утерян из-за войны - рассмотри вариант получения дубликата через Дию или консульство.

Нужен профессиональный перевод?

AI-перевод + проверка переводчиком + нотариальное заверение

Заказать перевод →