Převodník HTML na text (odstranění tagů a formátování řádků)

Extrahujte z HTML čitelný text obsahu, formátujte odstavce a seznamy a automaticky odstraňte bloky script/style.

Vyberte dekódování entit a zacházení s odkazy, obrázky a tabulkami, pak výsledek v jednom kroku zkopírujte nebo stáhněte.

Váš vstup se zpracovává lokálně v tomto prohlížeči a nikdy se neposílá na server.

Odstranění HTML tagů a extrakce samotného textu

Vstup a výstup se zobrazují vedle sebe, takže můžete s minimem pokusů dolaďovat pravidla zalamování řádků a další možnosti.

Co tento nástroj umí

  • Odstranit HTML tagy
  • Formátovat zalomení řádků pro odstavce a seznamy
  • Vždy vyloučit script/style a volitelně dekódovat entity

Jak používat

  1. Vložte HTML (nebo načtěte soubor).
  2. V případě potřeby upravte možnosti formátování.
  3. Převeďte a poté výsledek zkopírujte nebo uložte jako .txt.

Ukázka

Standardní pravidlo

Vstup (HTML)

<article><h2>Oznámení</h2><p>Vítejte<br>ve Finite Field</p><ul><li>Úvod</li><li>Použití</li></ul></article>

Výstup (text)

Oznámení

Vítejte
ve Finite Field

- Úvod
- Použití

Minimální pravidlo

Vstup (HTML)

<div><p>A</p><p>B</p></div>

Výstup (text)

A
B

Podrobné pravidlo

Vstup (HTML)

<ol><li>Definovat požadavky</li><li>Implementovat</li></ol>

Výstup (text)

1. Definovat požadavky
2. Implementovat

Možnosti formátování

  • Přepněte pravidlo zalamování řádků: Standardní / Minimální / Podrobné.
  • Zvolte, zda dekódovat HTML entity.
  • Dolaďte čitelnost pomocí slučování mezer a maximálního počtu po sobě jdoucích zalomení řádků.
  • Řiďte zacházení s komentáři, odkazy, obrázky a tabulkami.

Poznámka: <script> a <style> jsou vždy vyloučeny.

Pravidla převodu

Elementy převáděné na zalomení řádků (standardní)

  • <br>
  • <p>, nadpisy (h1-h6), <li>
  • <div>, <section>, <article>, <header>, <footer>, <blockquote>

Vždy vyloučené elementy

  • <script>...</script>
  • <style>...</style>
  • Podle potřeby můžete vyloučit i <noscript>.

Příklady formátování seznamů

  • <ul><li>Položka</li></ul> -> - Položka
  • <ol><li>Položka</li></ol> -> - Položka (Standardní/Minimální)
  • <ol><li>Položka</li></ol> -> 1. Položka (Podrobné)

Časté dotazy

Zalomení řádků vypadají divně

Tento nástroj převádí tagy jako <p>/<br>/<li> na zalomení řádků. Upravte pravidlo zalamování řádků a maximální počet po sobě jdoucích zalomení, abyste se přiblížili cílovému formátu.

Zachovávají se bloky script/style?

Ne. <script> a <style> se vždy odstraní.

Co entity jako &amp; ?

Dekódování můžete zapnout nebo vypnout. Zapněte jej, pokud chcete, aby se &amp; převedlo na &.

Jak mohu omezit přebytečné zalomení řádků a mezery?

Použijte minimální pravidlo, nechte zapnuté slučování mezer a nastavte maximální počet po sobě jdoucích zalomení na 1 nebo 2.

Mohu zachovat URL spolu s textem odkazu?

Ano. Nastavte zacházení s odkazy na Text + URL.

Poznámky

  • Nástroj parsuje zdroj HTML; nespouští skripty ani nereprodukuje úplný vykreslený výstup prohlížeče.
  • Převod velmi velkých vstupů může trvat déle.
  • Obsah vstupu se neukládá do parametrů URL.