Адрес для входа в РФ: exler.world

Кривая книжка в EPUB - вопрос

27.12.2016 13:04  11998   Комментарии (38)

Опуская несущественную предысторию. Есть книжка в EPUB, приобретенная в невероятно угробищном магазине Blurb. Эту книжку не удалось отыскать ни в каких других магазинах, также этой книжки ни в каком виде нет в российском Интернете: автор живет в Канаде, но пишет по-русски. Никакого суперинтереса (и даже обычного интереса) книжка не представляет, меня просто попросили ее приобрести.

Так вот, купил книжку, приехал EPUB почему-то диких размеров - аж 130 мегов, тогда как даже большая книжка с иллюстрациями в EPUB (а это фактически просто HTML) занимает буквально 2-3 мегабайта.

Открыл эту книжку - и понял, в чем проблема. Она сверстана невероятно криво. На странице ридера выглядит вот так. И в ридере с этим сделать ничего нельзя - не масштабируется. На смартфоне можно масштабировать, но книжка нужна именно для ридера.

Вопрос. Кто-нибудь с таким сталкивался, с этим можно что-то делать? В угробищный магазин, разумеется, писал, ответа пока не получил. Через Calibre пытался перегонять в другие форматы - в результате получается все то же самое: здоровенный белый лист с мельчайшим текстом где-то в углу.

Разбирать EBUB и вытаскивать оттуда текст - не собираюсь, книжка не стоит таких затрат времени. Вот если такой кривой EPUB как-то можно привести в чувство конвертированием - тогда можно и напрячься.

Заранее спасибо за советы.

Upd: Да, это просто настолько криво отсканированные картинки. Можно их вытащить и скопом обрезать в Фотошопе, а потом собрать, но оно того не стоит. Конвертация в любые форматы ничего не дает, это же картинки, они в любом формате остаются картинками.

27.12.2016 13:04
Комментарии 38

Конверторы обрезать не умеют. Тут только разобрать, обрезать, собрать.
27.12.16 22:14
0 0

Картинки, если они в хорошем разрешении можно прогнать через прогнать через какой-нибудь приличный OCR. (Из бесплатных рекомендую github.com .) Получаем на выходе уже "настоящий" HTML с тестом, правда сверстанный под размер и положение слов на исходной картинке, но это уже легче. Возможно ридер уже сам справится с этим.
27.12.16 20:53
0 0

Алекс, ну, тут задача-то не особо сложная. Надо сделать скрипт, который:

1. "Выкорчует" все имиджи из EPUB в отдельную директорию;

2. Сделает кроп всем имиджам из этой директории по заданным предопределенным координатам;

3. Создаст новый EPUB (ну, или PDF, если подойдет) на базе обновленных кропленных имиджей;



Если дадите свой файл EPUB, могу набросать такой скрипт и прислать Вам исправленный EPUB-файл.
27.12.16 20:10
0 0

Я как-то кривые ч/б книжки конвертил в многостраничный TIFF со сжатием, типа факс-формат. Правда давно, точно не помню, но вроде irfanview. Разница по объему составляла несколько десятков раз, больше сотни точно. Отличный формат для монохромных сканов, кста.


gsp
27.12.16 19:53
0 0

Что за книжка-то? Возможно общественность сможет из спортивного интереса ее отыскать в удобоваримом формате?
27.12.16 19:36
0 0

TimeWaster: Что за книжка-то? Возможно общественность сможет из спортивного интереса ее отыскать в удобоваримом формате?

blurb - это сервис самодельных книжек, странно, что они качество не верифицируют
27.12.16 20:25
0 0

Должна помочь консольная утилита для редактирования изображений ImageMagick. На Википедии, кстати, есть примеры bash-скриптов для обработки всех файлов в каталоге, в том числе, для вырезания прямоугольной части картинки, начиная с нужных координат. Как раз то, что нужно Экслеру.
27.12.16 19:12
0 0

Ну да, "мапед не мой".... 😉



Потребовать возврата денег.

Компенсации за израсходованные нервные клетки.

Написать соответствующий отзыв на их сайте.

Связаться с автором напрямую и купить книгу у него, или , как писали выше, обменяться книгами с автографами авторов .

Вариант радикальный: написать на ту же тему СВОЮ книгу, только лучше.

И в .txt . Или в .html 😄
27.12.16 18:35
0 0

xoxol: Вариант радикальный: написать на ту же тему СВОЮ книгу, только лучше.

Говорят, когда Св Лукьяненко впервые купил е-читалку и вылез в интернет с вопросом, "а где, собственно, е-книги-то берут?", ему ответили "А книги, в принципе, и самому написать можно".
27.12.16 18:53
0 0

Зачем распознавать? "Оттолкаем на кухню, а там паркет дешёвый" - в смысле, если напечатать в pdf, то потом можно кропнуть средствами для работы с pdf (а то и срезать поля в процессе печати)
27.12.16 18:00
0 0

aamonster: Зачем распознавать? "Оттолкаем на кухню, а там паркет дешёвый" - в смысле, если напечатать в pdf, то потом можно кропнуть средствами для работы с pdf (а то и срезать поля в процессе печати)


А "напечатать" pdf можно КУДА? На бумагу или в другой pdf я себе представляю. А в EPUB как делается?
28.12.16 08:53
0 0

Судя по 130 мегабайтам, там однозначно куча джипегов. Только распознавать через Finereader.
27.12.16 17:45
0 0

sirUjin: Онлайн конвертер из epub в txt.



urix: Судя по 130 мегабайтам, там однозначно куча джипегов.



Ну вот я тоже подумал про конвертацию epub - doc - epub.

Потому и спросил про текстовость файла.






27.12.16 17:51
0 0

Alex Exler: Upd: Да, это просто настолько криво отсканированные картинки. Можно их вытащить и скопом обрезать в Фотошопе, а потом собрать, но оно того не стоит. Конвертация в любые форматы ничего не дает, это же картинки, они в любом формате остаются картинками.

Если внутри HTMLя картинки - то только файнридер, только хардкор. С допиливанием получившегося руками, конечно, ибо хоть в файнридере сейчас уже и есть экспорт разпознанного текста и в fb2, и в epub, но результат всё равно нельзя назвать полноценной е-книгой практически никогда.

В общем, получается, нужно сделать то, за что уплочены деньги магазину. В принципе, это что-то аналогичное "полиграфическому браку", по идее, за такое деньги назад надо требовать.
27.12.16 17:27
0 0

Есть редактор для EPUB, Sigil . Но я бы распаковал архив и проверил книгу в HTML редакторе.
27.12.16 16:27
0 0

Судя по размеру файла и виду страниц там не текст, а картинки. Как писали выше - или обрезать и пытаться читать с картинки, или распознать текст. Работы на пару часов.
27.12.16 16:19
0 0

Онлайн конвертер из epub в txt. Если картинки не важно, то работы на 2.5 минуты
27.12.16 16:13
0 0

Алекс, а нельзя этому автору написать: мол, дорогой далекий друг, очень хотелось бы познакомиться, можно ли получить вашу книжку с автографом? Ну как писатель писателю?
27.12.16 15:49
0 0

Прочитал текст. Алекс, а это произведение действительно того стоит? ))
27.12.16 15:48
0 0

файнридер
27.12.16 15:44
0 0

А там epub весь картинками?



Он же текстовый должен быть или я ошибаюсь?
27.12.16 15:19
0 0

Да уж, круто кто-то книжку сотворил, сканы, да еще такие кривущие, в EPUB...
27.12.16 15:11
0 0

Короче, если jpg можно вытащить оттуда, дальше я сделаю за минуту. Куча jpg > один PDF > резка полей сразу на всех страницах > новый PDF
27.12.16 14:58
0 0

Если можно в PDF перегнать, то дальше все просто. Отрезать лишние поля и всё.
27.12.16 14:51
0 0

Alex Exler: Разбирать EBUB

Опечатка по Фрейду 😉
27.12.16 14:11
0 0

Я согласен:
Alex Exler: Разбирать EBUB

Опечатка по Фрейду


В данном случае это не формат, а процесс. Спасибо, утро началось прекрасно.
27.12.16 14:41
0 0

Найти того, кто согласится обработать исходник и выслать уже готовый результат. 😄
27.12.16 14:04
0 0

Говорухин: Найти того, кто согласится обработать исходник и выслать уже готовый результат.

Очень плюсую. Разместить заявку на северах фриланса, наверняка найдется несколько студентов, которые охотно взялись бы за такую работу, чтобы заработать денег + хороший отзыв, он же рейтинг в каталоге.

Если картинка - распознать, если текстом - переконвертить. На флибусте есть взаимные конвертеры во все форматы, что у них есть. Хотя если картинка, то проще убить автора такого ипаба об стену.
27.12.16 14:00
0 0

Алекс, попробуйте вот что-нить такое, там есть margin fixer github.com/maforget/epubfixer . И еще вот гугл выдал, что в калибре есть фиксер manpages.ubuntu.com/manpages/precise/man1/epub-fix.1.html
27.12.16 13:38
0 0

Не мучатся, перегнать ABBYY в fb2. Делов на пару минут. Или перегнать в FB2 через какой нибудь интернет-сервис, заодно и обзор и тест интернет-сервисов по конвертации будет 😄
27.12.16 13:36
0 0

+1 к jpg, можно перегнать в него конвертером, а потом пересобрать в pdf-принтером, например.
27.12.16 13:30
0 0

а в fb2 перегнать и посмотреть, там картинка с текстом или нормальный текст можно?
27.12.16 13:27
0 0

Самое простое, что приходит в голову - перегнать в jpeg с обрезкой изображения страницы. Открываешь на большом мониторе в epub, затем "ножницами" (стандартный инструмент W10) вырезаешь текст. Сохраняешь в формате jpeg, png, html (что больше удобнее) из "ножниц" постранично. Затем можно сшить эти картинки в единый файл, например (тоже что первое в голову приходит) налепить в PowerPoint с вертикальным форматом слайда, и сохранить как pdf. Конечно, это будет pdf изображения, а не текста. Несомненно, и другие способы есть.

В общем, совет из серии "пока американцы разрабатывали ручку, пишущую в невесомости, русские использовали карандаш". Скорее всего есть и другие способы, менее тупые.
27.12.16 13:14
0 0

Я согласен: Скорее всего есть и другие способы, менее тупые.  


Да нет, вряд ли 😄

Очень похоже, что внутри просто картинки-сканы. В принципе, epub - это zip-архив с довольно простой структурой внутри. Попробуйте распаковать и посмотерть содержимое.
27.12.16 13:08
0 0

flashg : > В принципе, epub - это zip-архив с довольно простой структурой внутри.

A внутри архива - HTML.
27.12.16 14:30
0 0
Теги
Сортировать по алфавиту или записям
BLM 20
Calella 143
exler.ru 271
авто 441
видео 3983
вино 359
еда 496
ЕС 60
игры 114
ИИ 29
кино 1579
попы 190
СМИ 2750
софт 930
США 128
шоу 6