您的 HTML 绝不会离开您的浏览器。

HTML → 文本转换器(去除标签与清理换行)

从粘贴的 HTML 中提取可读文本。段落和列表保持自然换行,脚本/样式总是被移除,实体解码可选。

输入 (HTML)
行数: 0 字符数: 0
输出 (文本)
行数: 0 字符数: 0
结果操作

格式选项

注意:<script> 和 <style> 总是被移除。
打开格式选项

去除 HTML 标签并提取纯文本

去除 HTML 标签

移除标记,仅保留可读的正文文本。

段落与列表换行

将 <p>/<br>/<li> 视为自然换行。

排除脚本/样式 + 实体开关

script/style 总是被移除,且实体解码是可选的。

如何使用

粘贴 HTML

将 HTML 粘贴到输入区域或加载文件。

调整选项

选择换行规则以及如何处理链接/图片。

转换并复制

点击转换,然后复制或下载为 .txt。

示例

输入
<article>
  <h2>标题</h2>
  <p>粘贴 HTML 进行转换。</p>
  <ol>
    <li>步骤 1</li>
    <li>步骤 2</li>
  </ol>
  <p>详情见 <a href="https://example.com">官方网站</a>。</p>
</article>
输出
标准
标题
粘贴 HTML 进行转换。
• 步骤 1
• 步骤 2
详情见官方网站。
最小化
标题
粘贴 HTML 进行转换。详情见官方网站。
• 步骤 1
• 步骤 2
详细
标题

粘贴 HTML 进行转换。

1. 步骤 1
2. 步骤 2

详情见官方网站。

转换规则

换行和排除遵循以下规则。

转换为换行符的元素(标准)

  • <br>
  • <p>...</p>
  • 标题: <h1>–<h6>
  • 列表: <li> (添加标记)
  • 块级: <div>, <section>, <article>, <header>, <footer>, <blockquote>

通常会增加空行的元素

  • </p>, </section>, </article> (结合最大换行数)

总是排除

  • <script>...</script>
  • <style>...</style>
  • <noscript>...</noscript>

列表格式示例

  • <ul><li>项目</li></ul> → • 项目
  • <ol><li>项目</li></ol> → 1. 项目 (详细模式)

注意与提示

仅限客户端

您的输入保留在浏览器中,从未上传。

移除 script/style

为了安全和可读性,script/style 总是被去除。

表格导出选择

TSV 是默认格式,也可选择空格或单行选项。

常见问题 (FAQ)

换行看起来很奇怪

<p>、<br> 和 <li> 会转换为换行符。尝试更改换行规则(标准/最小化/详细)和最大换行数设置。

保留 script/style 吗?

不。<script> 和 <style> 总是为了安全和可读性而被移除。

像 &amp; 这样的实体会发生什么?

您可以选择解码或保留实体。开启“解码 HTML 实体”以将 &amp; 转换为 &。

我想要更少的换行和空格

使用“最小化”换行,启用“合并连续空格”,并将最大换行数设置为 1 或 2。

我也可以保留 URL 吗?

将“链接处理”设置为“文本 + URL”以将上下文和 URL 保持在一起。