Конвертер HTML в текст (удаление тегов и форматирование строк)

Извлекайте из HTML читаемый основной текст, форматируйте абзацы/списки и автоматически удаляйте блоки script/style.

Выбирайте декодирование entities и обработку ссылок, изображений и таблиц, затем копируйте или скачивайте результат за один проход.

Ваш ввод обрабатывается локально в этом браузере и никогда не отправляется на сервер.

Удаляйте HTML-теги и извлекайте только текст

Ввод и вывод показываются рядом, поэтому вы можете быстро подбирать правила переноса строк и параметры с минимальным числом проб и ошибок.

Что делает этот инструмент

  • Удаляет HTML-теги
  • Форматирует переносы строк для абзацев и списков
  • Всегда исключает script/style и при необходимости декодирует entities

Как использовать

  1. Вставьте HTML (или загрузите файл).
  2. При необходимости настройте параметры форматирования.
  3. Преобразуйте, затем скопируйте результат или сохраните как .txt.

Пример

Стандартное правило

Ввод (HTML)

<статья><h2>Notice</h2><p>Welcome<br>to Finite Field</p><ul><li>Intro</li><li>Usage</li></ul></статья>

Вывод (текст)

Уведомление

Добро пожаловать
в Finite Field

- Введение
- Использование

Минимальное правило

Ввод (HTML)

<div><p>A</p><p>B</p></div>

Вывод (текст)

A
B

Подробное правило

Ввод (HTML)

<ol><li>Определить требования</li><li>Реализовать</li></ol>

Вывод (текст)

1. Определить требования
2. Реализовать

Параметры форматирования

  • Переключайте правило переноса строк: Standard / Minimal / Detailed.
  • Выбирайте, декодировать ли HTML entities.
  • Настраивайте читаемость через схлопывание пробелов и максимум подряд идущих переносов строк.
  • Управляйте обработкой комментариев, ссылок, изображений и таблиц.

Примечание: <script> и <style> всегда исключаются.

Правила преобразования

Элементы, превращающиеся в переносы строк (Standard)

  • <br>
  • <p>, заголовки (h1-h6), <li>
  • <div>, <section>, <статья>, <header>, <footer>, <blockquote>

Элементы, исключаемые всегда

  • <script>...</script>
  • <style>...</style>
  • При необходимости можно также исключить <noscript>.

Примеры форматирования списков

  • <ul><li>Элемент</li></ul> -> - Элемент
  • <ol><li>Элемент</li></ol> -> - Элемент (стандартный/минимальный)
  • <ol><li>Элемент</li></ol> -> 1. Элемент (подробный)

Часто задаваемые вопросы

Переносы строк выглядят странно

Этот инструмент преобразует теги вроде <p>/<br>/<li> в переносы строк. Настройте правило переноса строк и максимум подряд идущих переносов, чтобы приблизиться к нужному формату.

Блоки script/style сохраняются?

Нет. <script> и <style> всегда удаляются.

Что насчет entities вроде &amp; ?

Вы можете включить или выключить декодирование. Включите его, если хотите, чтобы &amp; превращалось в &.

Как уменьшить лишние переносы строк и пробелы?

Используйте правило Minimal, оставьте включенным Collapse Spaces и установите Max Consecutive Line Breaks в 1 или 2.

Можно ли сохранять URL вместе с текстом ссылки?

Да. Установите Link Handling в режим Text + URL.

Примечания

  • Инструмент разбирает исходный HTML-код; он не выполняет скрипты и не воспроизводит полный результат рендеринга браузера.
  • Преобразование очень большого ввода может занимать больше времени.
  • Содержимое ввода не сохраняется в параметрах URL.