Conversor de HTML para Texto (Remocao de tags e formatacao de linhas)

Extraia texto legivel do corpo HTML, formate paragrafos/listas e remova blocos script/style automaticamente.

Escolha a decodificacao de entidades e o tratamento de links, imagens e tabelas; depois copie ou baixe o resultado em um unico fluxo.

Sua entrada e processada localmente neste navegador e nunca e enviada a um servidor.

Remova tags HTML e extraia apenas texto

Entrada e saida aparecem lado a lado, para que voce ajuste regras de quebra de linha e opcoes com o minimo de tentativa e erro.

O que esta ferramenta faz

  • Remove tags HTML
  • Formata quebras de linha para paragrafos e listas
  • Sempre exclui script/style e opcionalmente decodifica entidades

Como usar

  1. Cole HTML (ou carregue um arquivo).
  2. Ajuste as opcoes de formatacao se necessario.
  3. Converta e depois copie o resultado ou salve como .txt.

Exemplo

Regra padrao

Entrada (HTML)

<article><h2>Aviso</h2><p>Bem-vindo<br>a Finite Field</p><ul><li>Introducao</li><li>Uso</li></ul></article>

Saida (Texto)

Aviso

Bem-vindo
a Finite Field

- Introducao
- Uso

Regra minima

Entrada (HTML)

<div><p>A</p><p>B</p></div>

Saida (Texto)

A
B

Regra detalhada

Entrada (HTML)

<ol><li>Definir requisitos</li><li>Implementar</li></ol>

Saida (Texto)

1. Definir requisitos
2. Implementar

Opcoes de formatacao

  • Alterne a regra de quebra de linha: Padrao / Minima / Detalhada.
  • Escolha se deseja decodificar entidades HTML.
  • Ajuste a legibilidade com colapso de espacos e maximo de quebras de linha consecutivas.
  • Controle o tratamento de comentarios, links, imagens e tabelas.

Observacao: <script> e <style> sao sempre excluidos.

Regras de conversao

Elementos convertidos em quebras de linha (Padrao)

  • <br>
  • <p>, titulos (h1-h6), <li>
  • <div>, <section>, <article>, <header>, <footer>, <blockquote>

Elementos sempre excluidos

  • <script>...</script>
  • <style>...</style>
  • Voce tambem pode excluir <noscript> quando necessario.

Exemplos de formatacao de lista

  • <ul><li>Elemento</li></ul> -> - Elemento
  • <ol><li>Item</li></ol> -> - Item (Padrao/Minima)
  • <ol><li>Item</li></ol> -> 1. Item (Detalhada)

FAQ

As quebras de linha parecem estranhas

Esta ferramenta converte tags como <p>/<br>/<li> em quebras de linha. Ajuste Regra de quebra de linha e Maximo de quebras de linha consecutivas para chegar mais perto do formato desejado.

Blocos script/style sao mantidos?

Nao. <script> e <style> sao sempre removidos.

E quanto a entidades como &amp; ?

Voce pode escolher ligar ou desligar a decodificacao. Ative quando quiser que &amp; vire &.

Como reduzir espacos e quebras de linha extras?

Use a regra Minima, mantenha Colapsar espacos ativado e defina Maximo de quebras de linha consecutivas para 1 ou 2.

Posso manter URLs junto com o texto do link?

Sim. Defina Tratamento de links como Texto + URL.

Observacoes

  • A ferramenta analisa o codigo-fonte HTML de entrada; ela nao executa scripts nem reproduz a renderizacao completa do navegador.
  • Entradas muito grandes podem levar mais tempo para converter.
  • O conteudo de entrada nao e armazenado nos parametros de consulta da URL.