Конвертор HTML во текст (отстранување тагови и форматирање на редови)

Извлечете читлив body текст од HTML, форматирајте пасуси/листи и автоматски отстранете script/style блокови.

Изберете декодирање на entities и обработка на линкови, слики и табели, потоа копирајте или преземете го резултатот во еден тек.

Вашиот влез се обработува локално во овој прелистувач и никогаш не се испраќа до сервер.

Отстранете HTML тагови и извлечете само текст

Влезот и излезот се прикажуваат еден до друг, за да можете да ги прилагодите правилата за прекин на ред и опциите со минимално пробување.

Што прави оваа алатка

  • Отстранува HTML тагови
  • Го форматира прекинот на ред за пасуси и листи
  • Секогаш ги исклучува script/style и по избор декодира entities

Како да се користи

  1. Залепете HTML (или вчитајте датотека).
  2. По потреба прилагодете ги опциите за форматирање.
  3. Конвертирајте, па копирајте го резултатот или зачувајте како .txt.

Пример

Стандардно правило

Влез (HTML)

<article><h2>Известување</h2><p>Добредојдовте<br>во Finite Field</p><ul><li>Вовед</li><li>Употреба</li></ul></article>

Излез (текст)

Известување

Добредојдовте
во Finite Field

- Вовед
- Употреба

Минимално правило

Влез (HTML)

<div><p>A</p><p>B</p></div>

Излез (текст)

A
B

Детално правило

Влез (HTML)

<ol><li>Дефинирај барања</li><li>Имплементирај</li></ol>

Излез (текст)

1. Дефинирај барања
2. Имплементирај

Опции за форматирање

  • Префрлете правило за прекин на ред: Стандардно / Минимално / Детално.
  • Изберете дали да се декодираат HTML entities.
  • Прилагодете ја читливоста со спојување на празни места и максимален број последователни прекини на ред.
  • Контролирајте ја обработката на коментари, линкови, слики и табели.

Белешка: <script> и <style> секогаш се исклучени.

Правила на конверзија

Елементи што се претвораат во прекини на ред (Стандардно)

  • <br>
  • <p>, наслови (h1-h6), <li>
  • <div>, <section>, <article>, <header>, <footer>, <blockquote>

Секогаш исклучени елементи

  • <script>...</script>
  • <style>...</style>
  • По потреба можете да исклучите и <noscript>.

Примери за форматирање листи

  • <ul><li>Ставка</li></ul> -> - Ставка
  • <ol><li>Item</li></ol> -> - Item (Стандардно/Минимално)
  • <ol><li>Item</li></ol> -> 1. Item (Детално)

Често поставувани прашања

Прекините на ред изгледаат чудно

Оваа алатка ги претвора таговите како <p>/<br>/<li> во прекини на ред. Прилагодете ги Line Break Rule и Max Consecutive Line Breaks за да се доближите до посакуваниот формат.

Дали script/style блоковите се задржуваат?

Не. <script> и <style> секогаш се отстрануваат.

Што е со entities како &amp; ?

Можете да изберете декодирање ВКЛ/ИСКЛ. Вклучете декодирање кога сакате &amp; да стане &.

Како да ги намалам вишокот прекини на ред и празни места?

Користете Minimal правило, оставете Collapse Spaces ВКЛ и поставете Max Consecutive Line Breaks на 1 или 2.

Може ли да ги задржам URL-ите заедно со текстот на линкот?

Да. Поставете Link Handling на Text + URL.

Белешки

  • Алатката го парсира изворниот HTML влез; не извршува script-и и не го репродуцира целосниот рендерирачки излез на прелистувачот.
  • Многу големите влезови може да бараат повеќе време за конверзија.
  • Влезната содржина не се зачувува во URL query параметри.