Trình chuyển HTML sang văn bản (xóa thẻ và định dạng dòng)

Trích xuất phần văn bản dễ đọc từ HTML, định dạng đoạn văn/danh sách và tự động loại bỏ khối script/style.

Chọn cách giải mã entity và cách xử lý liên kết, hình ảnh, bảng biểu, rồi sao chép hoặc tải xuống kết quả trong cùng một luồng.

Dữ liệu đầu vào của bạn được xử lý cục bộ trong trình duyệt này và không bao giờ được gửi tới máy chủ.

Xóa thẻ HTML và chỉ trích xuất văn bản

Đầu vào và đầu ra được hiển thị song song, nên bạn có thể điều chỉnh quy tắc xuống dòng và các tùy chọn với ít lần thử sai nhất.

Công cụ này làm gì

  • Xóa các thẻ HTML
  • Định dạng xuống dòng cho đoạn văn và danh sách
  • Luôn loại bỏ script/style và có thể giải mã entity nếu muốn

Cách dùng

  1. Dán HTML (hoặc tải một tệp).
  2. Điều chỉnh các tùy chọn định dạng nếu cần.
  3. Chuyển đổi, rồi sao chép kết quả hoặc lưu thành .txt.

Mẫu

Quy tắc chuẩn

Đầu vào (HTML)

<article><h2>Thông báo</h2><p>Chào mừng<br>đến với Finite Field</p><ul><li>Giới thiệu</li><li>Cách dùng</li></ul></article>

Đầu ra (Văn bản)

Thông báo

Chào mừng
đến với Finite Field

- Giới thiệu
- Cách dùng

Quy tắc tối giản

Đầu vào (HTML)

<div><p>A</p><p>B</p></div>

Đầu ra (Văn bản)

A
B

Quy tắc chi tiết

Đầu vào (HTML)

<ol><li>Xác định yêu cầu</li><li>Triển khai</li></ol>

Đầu ra (Văn bản)

1. Xác định yêu cầu
2. Triển khai

Tùy chọn định dạng

  • Chuyển quy tắc xuống dòng: Chuẩn / Tối giản / Chi tiết.
  • Chọn có giải mã HTML entity hay không.
  • Điều chỉnh độ dễ đọc bằng cách gộp khoảng trắng và giới hạn số lần xuống dòng liên tiếp.
  • Kiểm soát cách xử lý comment, liên kết, hình ảnh và bảng.

Lưu ý: <script> và <style> luôn bị loại bỏ.

Quy tắc chuyển đổi

Các phần tử được chuyển thành xuống dòng (Chuẩn)

  • <br>
  • <p>, tiêu đề (h1-h6), <li>
  • <div>, <section>, <article>, <header>, <footer>, <blockquote>

Các phần tử luôn bị loại bỏ

  • <script>...</script>
  • <style>...</style>
  • Bạn cũng có thể loại bỏ <noscript> khi cần.

Ví dụ định dạng danh sách

  • <ul><li>Mục</li></ul> -> - Mục
  • <ol><li>Mục</li></ol> -> - Mục (Chuẩn/Tối giản)
  • <ol><li>Mục</li></ol> -> 1. Mục (Chi tiết)

Câu hỏi thường gặp

Việc xuống dòng trông hơi lạ

Công cụ này chuyển các thẻ như <p>/<br>/<li> thành xuống dòng. Hãy điều chỉnh Quy tắc xuống dòng và Số lần xuống dòng liên tiếp tối đa để tiến gần hơn đến định dạng mong muốn.

Các khối script/style có được giữ lại không?

Không. <script> và <style> luôn bị xóa.

Các entity như &amp; thì sao?

Bạn có thể bật/tắt giải mã. Hãy bật khi muốn &amp; trở thành &.

Làm sao để giảm khoảng trắng và xuống dòng thừa?

Hãy dùng quy tắc Tối giản, giữ Gộp khoảng trắng ở trạng thái bật và đặt Số lần xuống dòng liên tiếp tối đa là 1 hoặc 2.

Tôi có thể giữ URL cùng với văn bản liên kết không?

Có. Hãy đặt Cách xử lý liên kết thành Văn bản + URL.

Ghi chú

  • Công cụ phân tích mã nguồn HTML đầu vào; nó không thực thi script hay tái hiện đầy đủ kết quả render của trình duyệt.
  • Đầu vào rất lớn có thể cần nhiều thời gian hơn để chuyển đổi.
  • Nội dung đầu vào không được lưu trong tham số truy vấn của URL.