HTML 转文本转换器(移除标签与整理行格式)

从 HTML 中提取可读的正文文本,整理段落 / 列表格式,并自动移除 script / style 块。

可选择实体解码以及链接、图片和表格的处理方式,然后一键复制或下载结果。

你的输入仅在浏览器本地处理,绝不会发送到服务器。

移除 HTML 标签并只提取文本

输入与输出并排显示,因此你可以在较少试错的情况下调整换行规则和各项选项。

此工具可以做什么

  • 移除 HTML 标签
  • 整理段落和列表的换行格式
  • 始终排除 script / style,并可按需解码实体

使用方法

  1. 粘贴 HTML(或加载文件)。
  2. 如有需要,调整格式化选项。
  3. 点击转换,然后复制结果或保存为 .txt。

示例

标准规则

输入(HTML)

<article><h2>公告</h2><p>欢迎<br>来到有限字段</p><ul><li>简介</li><li>用法</li></ul></article>

输出(文本)

公告

欢迎
来到有限字段

• 简介
• 用法

最简规则

输入(HTML)

<div><p>甲</p><p>乙</p></div>

输出(文本)

甲
乙

详细规则

输入(HTML)

<ol><li>确定需求</li><li>开始实现</li></ol>

输出(文本)

1. 确定需求
2. 开始实现

格式化选项

  • 可切换换行规则:标准 / 最简 / 详细。
  • 可选择是否解码 HTML 实体。
  • 可通过压缩空格和限制连续换行数来提升可读性。
  • 可控制注释、链接、图片和表格的处理方式。

注意:<script> 和 <style> 始终会被排除。

转换规则

会转换为换行的元素(标准)

  • <br>
  • <p>、标题(h1-h6)、<li>
  • <div>、<section>、<article>、<header>、<footer>、<blockquote>

始终排除的元素

  • <script>...</script>
  • <style>...</style>
  • 必要时也可额外排除 <noscript>。

列表示例格式

  • <ul><li>项目</li></ul> -> • 项目
  • <ol><li>项目</li></ol> -> • 项目(标准 / 最简)
  • <ol><li>项目</li></ol> -> 1. 项目(详细)

常见问题

换行看起来不理想

此工具会把 <p> / <br> / <li> 等标签转换为换行。请调整“换行规则”和“最大连续换行数”,以更接近你的目标格式。

script / style 块会被保留吗?

不会。<script> 和 <style> 会被始终移除。

像 &amp; 这样的实体会怎样处理?

你可以选择开启或关闭解码。若希望把 &amp; 转成 &,请开启解码。

如何减少多余的换行和空格?

请使用“最简”规则,保持“压缩连续空格”为开启,并将“最大连续换行数”设为 1 或 2。

可以在保留链接文本的同时保留 URL 吗?

可以。请把“链接处理”设为“文本 + URL”。

注意事项

  • 此工具解析的是输入的 HTML 源码,不会执行脚本,也不会完全复现浏览器渲染结果。
  • 输入非常大时,转换可能需要更长时间。
  • 输入内容不会保存在 URL 查询参数中。