Konvertor HTML na text (odstránenie tagov a formátovanie riadkov)

Extrahujte čitateľný text tela z HTML, formátujte odseky a zoznamy a automaticky odstráňte bloky script/style.

Zvoľte dekódovanie entít a spracovanie odkazov, obrázkov a tabuliek, potom výsledok skopírujte alebo stiahnite v jednom postupe.

Váš vstup sa spracúva lokálne v tomto prehliadači a nikdy sa neposiela na server.

Odstráňte HTML tagy a extrahujte iba text

Vstup a výstup sa zobrazujú vedľa seba, takže pravidlá zalamovania riadkov a ďalšie voľby môžete dolaďovať s minimom pokusov a omylov.

Čo tento nástroj robí

  • Odstraňuje HTML tagy
  • Formátuje zalomenia riadkov pre odseky a zoznamy
  • Vždy vylučuje script/style a voliteľne dekóduje entity

Ako používať

  1. Vložte HTML (alebo načítajte súbor).
  2. Ak treba, upravte možnosti formátovania.
  3. Preveďte obsah a potom výsledok skopírujte alebo uložte ako .txt.

Ukážka

Štandardné pravidlo

Vstup (HTML)

<article><h2>Oznámenie</h2><p>Vitajte<br>vo Finite Field</p><ul><li>Úvod</li><li>Použitie</li></ul></article>

Výstup (Text)

Oznámenie

Vitajte
vo Finite Field

- Úvod
- Použitie

Minimálne pravidlo

Vstup (HTML)

<div><p>A</p><p>B</p></div>

Výstup (Text)

A
B

Podrobné pravidlo

Vstup (HTML)

<ol><li>Definujte požiadavky</li><li>Implementujte</li></ol>

Výstup (Text)

1. Definujte požiadavky
2. Implementujte

Možnosti formátovania

  • Prepínajte pravidlo zalamovania riadkov: Štandardné / Minimálne / Podrobné.
  • Zvoľte, či sa majú dekódovať HTML entity.
  • Čitateľnosť dolaďte zlučovaním medzier a maximálnym počtom po sebe idúcich zalomení riadkov.
  • Riadenie spracovania komentárov, odkazov, obrázkov a tabuliek.

Poznámka: <script> a <style> sa vždy vylučujú.

Pravidlá konverzie

Prvky prevedené na zalomenia riadkov (štandardné)

  • <br>
  • <p>, nadpisy (h1-h6), <li>
  • <div>, <section>, <article>, <header>, <footer>, <blockquote>

Vždy vylúčené prvky

  • <script>...</script>
  • <style>...</style>
  • Podľa potreby môžete vylúčiť aj <noscript>.

Príklady formátovania zoznamov

  • <ul><li>Položka</li></ul> -> - Položka
  • <ol><li>Item</li></ol> -> - Item (štandardné/minimálne)
  • <ol><li>Item</li></ol> -> 1. Item (podrobné)

Často kladené otázky

Zalomenia riadkov vyzerajú čudne

Tento nástroj prevádza tagy ako <p>/<br>/<li> na zalomenia riadkov. Upravte Pravidlo zalamovania riadkov a Maximálny počet po sebe idúcich zalomení, aby sa výsledok priblížil cieľovému formátu.

Zostávajú bloky script/style zachované?

Nie. <script> a <style> sa vždy odstraňujú.

Čo s entitami ako &amp; ?

Môžete zapnúť alebo vypnúť dekódovanie. Zapnite ho, keď chcete, aby sa &amp; zmenilo na &.

Ako môžem znížiť počet nadbytočných zalomení a medzier?

Použite minimálne pravidlo, nechajte zapnuté Zlučovať medzery a nastavte Maximálny počet po sebe idúcich zalomení riadkov na 1 alebo 2.

Môžem zachovať URL spolu s textom odkazu?

Áno. Nastavte Spracovanie odkazov na Text + URL.

Poznámky

  • Nástroj analyzuje zdrojové HTML zo vstupu; nespúšťa skripty ani nereprodukuje úplný výstup vykreslenia v prehliadači.
  • Konverzia veľmi veľkých vstupov môže trvať dlhšie.
  • Obsah vstupu sa neukladá do parametrov URL.