Знаки абзаца

удалить знаки абзацаЛюблю читать хорошие книги. По-моему, это отличная привычка, которая не только всесторонне развивает, но и как-то духовно обогащает. Но речь сейчас не о пользе чтения. И даже не о том, как я обожаю формат электронных книг fb2 (и даже не о том, на сколько он удобен). Проблема, для которой мне пришлось найти решение, заключалась в следующем: часто приходится скачивать электронные варианты книг из интернета. Взять, например, ту же библиотеку Максима Мошкова — тексты там выложены таким образом, чтобы не нарушалась верстка страницы. А сделать это можно, если только после определенного количества печатных символов ставить знак абзаца. Короче говоря, при копировании книги наблюдается огромное количество символов ¶ Называется, кстати, этот символ pilcrow. Кроме того, так как библиотека пополняется ее пользователями, то в тексте присутствует огромное количество лишних пробелов. И вообще, все, как говорится, не «причесано».
Обычной автозаменой сложно удалить лишние знаки абзаца — можно потерять действительно нужные «авторские» нажатия клавиши Enter. Поэтому я стал думать, как бы привести текст в божеский вид. Хорошо, что есть метро — пока до дома доедешь, хорошая идея как раз придет в голову. За пять минут я написал небольшой, но полезный макрос (программная заданная последовательностью действий) Microsoft Word. Для всех книг из библиотеки Максима Мошкова он удаляет «лишние» знаки абзацев (разумеется, оставляя те, где это действительно необходимо) и символы пробела (более 2 штук).
Скачать макрос можно по этой ссылке.
Не думаю, что должны возникнуть вопросы типа «как этим пользоваться», но, на всякий случай, поясню. Копируем исходный текст в Word. Вид — макросы. Вводим имя макроса типа «qwerty» и жмем «создать». Откроется окно с Microsoft Visual Basiс. Далее File — Import file. Находим файл из архива NewMacros.bas
После чего окно с Visual Basiс можно закрыть. В Word’е жмем снова на кнопочку макросы — выполнить. Вауля — книга в читабельном виде!
Если коротко, то работа макроса происходит по следующим стадиям:
1) поиск символов три пробела ^p (так в книгах начинается «хороший» абзац)
2) замена найденного на символы $$$
3) поиск ^p («плохие» абзацы)
4) замена найденного на символ проблел
5) далее идет поиск и замена 3 и 2 пробелов на 1 пробел
6) замена символов $$$ на ^p (восстановление «хороших» абзацев)
Далее текст можно сохранить и закачать на электронную книгу. Или конвертировать во что-то удобное. Я надеюсь, кому-то пригодится моя статья и макрос. Судя по гуглу и яндексу, люди часто сталкиваются с подобной проблемой. Однако решения не находят. Пользуйтесь на здоровье.
Если возникнут какие-то вопросы, я с радостью отвечу в комментариях.

Комментариев 10

  1. Спасибо огромное за статью, но у меня проблема, видимо, сложнее. Скопировал текст из PDF-файла в Word.Там не стоит трёх пробелов перед абзацем. Там и «хорошие», и «плохие» абзацы одинаковы. В этом случае невозможно оставить авторские заглавные сроки?

    Ответить
    1. Андрей, если в строке с «плохим» абзацем и с «хорошим» стоит чистый символ ¶ (без пробелов или хотя бы каких-то дополнительных символов, по которым можно было бы отличить «хороший» от «плохого»), то, боюсь, заменить будет сложновато.
      Я где-то в интернете, когда решал свою задачу, видел названия каких-то плагинов или дополнений для MS Word, но найти их не удалось))) Мол, они логически расставляют нужные абзацы и убирают лишние. Кроме того, мне кажется, что это как-то сомнительно.
      В теории можно написать скрипт, который считал бы количество символов в строке, и удалял бы последний знак в этой строке в том случае, если символов было насчитано больше или меньше определенного значения. Возможно, что так удалось бы сократить лишние абзацы. Хотя это тоже затея ммм… плохая)
      Точно ли у вас в тексте нет пробела между символом ¶ и новой строкой? Потому что довольно странно получается: слова не разделены между собой..?

      Ответить
  2. Уже часа три не могу вылезти с Вашего сайта, столько интересного обнаружилось) Радует, что Вы поддерживаете его и читаете коментарии гостей )
    У меня во проблема связана с форматом pdf.. По учебе приходится довольно часто списывать с книг, конечно это удобно делать с электронной книгой, она менее палевна) но проблема с масштабированием. Ну никак не хочет книга подгонять pdf файлы под экран, а жать кнопочки перемещения по странице в условиях тотального контроля как-то не очень) может встречали где-то адекватные конверторы форматов? или все-таки pdf с картинками нельзя приспособить под fb2?

    Ответить
    1. Aurelle, спасибо за комментарий.
      Если pdf файл состоит из текста, который нельзя выделить (например, сканированные изображения), то разумеется, изменить тут ничего нельзя. Перед вами, , грубо говоря, непосредственная фотография.
      Тем не менее, встречаются pdf файлы, где с текстом можно работать. Скажем, выделить и вставить в тот-же блокнот и так далее.
      Рекомендую загонять страницы нередактируемых pdf файлов в распознаватель текста: abby finereader как раз подойдет. Графики, формулы и таблицы можно оставить в виде картинок.
      Из конвертеров же могу посоветовать неплохой онлайн сервис (сам им пользуюсь, когда из txt в fb2 необходимо сделать книгу) — вот ссылочка

      Ответить
      1. Вариант с «копировать-вставить» не проходит…. Так-то даже в doc файл можно было бы вставить и отлично читать вместе с графиками. Проблема в том, что при копировании, втавляются одни кочевряжные кочевряжки и никакая смена кодировки не помогает.

        Ответить
        1. Aurelle, скопируйте сюда, в комментарии, пример «кочевряжных кочевряжек» — попробуем разобраться)

          Ответить
          1. Òâåðäûå ðàñòâîðû íèîáàòà áàðèÿ-ñòðîíöèÿ
            SrxBa1−xNb2O6 (SBN) èíòåðåñíû òåì, ÷òî ÷àñòè÷íî çà-
            ïîëíåííàÿ êðèñòàëëè÷åñêàÿ ñòðóêòóðà äàííûõ ìàòåðèà-
            ëîâ ïîçâîëÿåò ââîäèòü äîâîëüíî øèðîêèé äèàïàçîí ïðè-
            ìåñåé (îò èîíîâ ïåðåõîäíûõ ìåòàëëîâ äî ðåäêîçåìåëü-
            íûõ èîíîâ), êîòîðûå ìîãóò ñóùåñòâåííî èçìåíÿòü
            äèýëåêòðè÷åñêèå è îïòè÷åñêèå ñâîéñòâà [1,2]. C ó÷åòîì
            ýòîãî îáñòîÿòåëüñòâà ïðåäñòàâëÿåò èíòåðåñ èññëåäîâà-
            íèå âëèÿíèÿ âûñîêîòåìïåðàòóðíîãî îòæèãà íà ïèðî-
            ýëåêòðè÷åñêèå ñâîéñòâà êðèñòàëëîâ SBN ñ ïðèìåñÿìè
            Ce è Cr è èõ ñðàâíåíèå ñ òåìè æå õàðàêòåðèñòèêàìè
            áåñïðèìåñíûõ îáðàçöîâ.

            :(

          2. Твердые растворы ниобата бария-стронция SrxBa1−xNb2O6 (SBN) интересны тем, что частично заполненная кристаллическая структура данных материалов позволяет вводить довольно широкий диапазон примесей (от ионов переходных металлов до редкоземельных ионов), которые могут существенно изменять диэлектрические и оптические свойства [1,2]. C учетом этого обстоятельства представляет интерес исследование влияния высокотемпературного отжига на пироэлектрические свойства кристаллов SBN с примесями Ce и Cr и их сравнение с теми же характеристиками беспримесных образцов.
            Aurelle, все просто))) Воспользуйтесь декодером Тёмы Лебедева.

  3. Спасибо Вам большое! Прикрутите пожалуйста лайки/плюсы/спасибо к сайту. Мало кто любит оставлять почту, а поблагодарить хочется.

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

дeвять + oдин =