Как сохранить формат PDF при переводе: OCR, шрифты и вёрстка

Короткий ответ

Чтобы сохранить формат PDF при переводе, сначала нужно понять происхождение файла: он экспортирован из Word, InDesign, CAD, Excel или является сканом. Затем выбирают маршрут: работать с исходником, восстановить редактируемый слой через OCR или переверстать результат вручную. После перевода обязательно проверяют переносы, таблицы, подписи, колонтитулы, номера рисунков, шрифты и страницы, где перевод стал длиннее оригинала.

Кратко

PDF сам по себе не является удобным исходником для перевода: он часто хранит внешний вид, а не логическую структуру документа.
Сохранение формата зависит от источника файла, качества текста, доступных шрифтов и того, нужен ли редактируемый результат.
Самые частые поломки после перевода — переполненные блоки, съехавшие таблицы, неверные переносы, сломанные подписи и потерянные символы.

Что подготовить

найти исходный файл, из которого был экспортирован PDF
проверить, выделяется ли текст или документ является сканом
отметить страницы с таблицами, схемами, печатями, сносками и плотной версткой
решить, нужен ли редактируемый DOCX/XLSX или финальный PDF один-в-один
заложить финальный DTP-просмотр после перевода, а не только вычитку текста

Почему PDF “едет” после перевода

В PDF текст часто разбит на отдельные фрагменты, строки и координаты. Программа показывает страницу красиво, но внутри может не быть нормальных абзацев, таблиц и связей между подписью и рисунком. При извлечении такой текст легко перемешивается.

Дополнительная причина — разная длина языков. Русский, английский, немецкий и китайский занимают разное место в блоках. Если макет был сделан очень плотно, после перевода часть текста выходит за границы рамок или меняет высоту страницы.

Сначала ищут исходник, а не правят PDF вручную

Лучший способ сохранить формат — работать с файлом, из которого PDF был создан: Word, InDesign, PowerPoint, Excel, Illustrator, CAD или CMS-выгрузка. В исходнике обычно сохранены стили, таблицы, изображения, слои и логика документа.

Если исходника нет, PDF можно восстановить, но это уже не “просто перевод”. Появляется отдельный этап подготовки: распознавание, очистка, восстановление таблиц, ручная разметка блоков и проверка того, что текст не поменял порядок.

Когда нужен OCR и почему он не решает всё

OCR помогает получить текст из скана или изображения. Но распознавание не гарантирует правильные абзацы, таблицы, формулы, индексы, символы диаметра, градусы, дроби и номера деталей. Эти элементы проверяются отдельно.

Для технических PDF особенно опасны мелкие подписи на схемах, вертикальный текст, серые таблицы, плохой скан, китайские иероглифы в чертеже и строки с большим количеством цифр. OCR может выглядеть убедительно, но ошибиться в одном символе, который важен для эксплуатации.

Как учитывать шрифты и расширение текста

Если нужный шрифт недоступен, PDF может выглядеть иначе: изменится ширина букв, межстрочный интервал и переносы. Поэтому для брендированных каталогов, инструкций и паспортов лучше заранее передать шрифты или разрешить подобрать близкую замену.

Расширение текста планируют до вёрстки. Иногда достаточно уменьшить кегль на один пункт, иногда нужно расширить блок, перенести подпись или перестроить таблицу. Нельзя просто “ужать” всё подряд: мелкий текст может стать нечитаемым.

Что проверяют в таблицах, подписях и колонтитулах

В таблицах смотрят не только перевод, но и сетку: не пропали ли строки, не слиплись ли ячейки, сохранились ли единицы измерения, примечания и переносы. В плотных таблицах лучше проверять страницы визуально, а не только текстовым поиском.

Подписи к рисункам, номера разделов, сноски, колонтитулы и перекрёстные ссылки часто остаются вне основного потока текста. Их нужно включать в задачу явно, иначе можно получить переведённые абзацы и непереведённые служебные элементы.

Как сдавать результат, чтобы его приняли с первого раза

Для простых документов можно сдать DOCX и PDF. Для сложных макетов лучше приложить комментарий: какие страницы перевёрстаны вручную, где были плохие сканы, какие шрифты заменены и где требуется финальное подтверждение заказчика.

Приёмка идёт постранично: открытие файла, поиск текста, сверка оглавления, просмотр таблиц, проверка изображений, выборочные страницы из середины и конца документа. Если PDF нужен для печати, дополнительно проверяют поля, качество изображений и экспорт.

Вопросы по теме

Можно ли сохранить PDF один-в-один без исходников?

Иногда можно, но это зависит от качества PDF, сложности макета и объёма ручной вёрстки. Исходник почти всегда даёт более стабильный результат.

OCR входит в перевод автоматически?

Нет. OCR — отдельный подготовительный этап, особенно для сканов, чертежей, таблиц и документов с плохим качеством изображения.

Что лучше получить на выходе: DOCX или PDF?

Если документ нужно редактировать дальше, лучше DOCX или исходный формат. Если нужна отправка клиенту или печать, нужен финальный PDF после проверки макета.

Что делать дальше

Сохранение формата PDF — это связка перевода, подготовки файла и DTP-проверки. Чем раньше понятен источник PDF и требуемый результат, тем меньше ручных правок и тем выше шанс получить аккуратный документ без развалившейся верстки.

Связанная услуга: Перевод файлов с сохранением структуры и форматирования

Как сохранить формат PDF при переводе и не получить «поехавший» макет