تبدیل‌کننده HTML به متن (حذف تگ و قالب‌بندی خطوط)

متن اصلیِ خوانا را از HTML استخراج کنید، پاراگراف‌ها و فهرست‌ها را قالب‌بندی کنید و بلوک‌های script/style را به‌صورت خودکار حذف کنید.

نحوه decode کردن entityها و برخورد با لینک‌ها، تصویرها و جدول‌ها را انتخاب کنید، سپس نتیجه را در یک جریان کپی یا دانلود کنید.

ورودی شما به‌صورت محلی در همین مرورگر پردازش می‌شود و هرگز به سرور ارسال نمی‌شود.

تگ‌های HTML را حذف کنید و فقط متن را استخراج کنید

ورودی و خروجی کنار هم نمایش داده می‌شوند تا بتوانید قوانین شکست خط و گزینه‌ها را با کمترین آزمون و خطا تنظیم کنید.

این ابزار چه می‌کند

  • حذف تگ‌های HTML
  • قالب‌بندی شکست خط برای پاراگراف‌ها و فهرست‌ها
  • حذف همیشگی script/style و decode اختیاری entityها

روش استفاده

  1. HTML را جای‌گذاری کنید (یا یک فایل را بارگذاری کنید).
  2. در صورت نیاز گزینه‌های قالب‌بندی را تنظیم کنید.
  3. تبدیل را اجرا کنید، سپس نتیجه را کپی یا به‌صورت .txt ذخیره کنید.

نمونه

قاعده استاندارد

ورودی (HTML)

<article><h2>اطلاعیه</h2><p>خوش آمدید<br>به Finite Field</p><ul><li>معرفی</li><li>استفاده</li></ul></article>

خروجی (متن)

اطلاعیه

خوش آمدید
به Finite Field

- معرفی
- استفاده

قاعده حداقلی

ورودی (HTML)

<div><p>الف</p><p>ب</p></div>

خروجی (متن)

الف
ب

قاعده دقیق

ورودی (HTML)

<ol><li>تعریف نیازمندی‌ها</li><li>پیاده‌سازی</li></ol>

خروجی (متن)

1. تعریف نیازمندی‌ها
2. پیاده‌سازی

گزینه‌های قالب‌بندی

  • قاعده شکست خط را تغییر دهید: Standard / Minimal / Detailed.
  • انتخاب کنید که entityهای HTML decode شوند یا نه.
  • خوانایی را با ادغام فاصله‌ها و بیشینه شکست خط‌های پیاپی تنظیم کنید.
  • نحوه برخورد با commentها، لینک‌ها، تصویرها و جدول‌ها را کنترل کنید.

توجه: <script> و <style> همیشه حذف می‌شوند.

قوانین تبدیل

عناصری که به شکست خط تبدیل می‌شوند (استاندارد)

  • <br>
  • <p>، تیترها (h1-h6)، <li>
  • <div>، <section>، <article>، <header>، <footer>، <blockquote>

عناصری که همیشه حذف می‌شوند

  • <script>...</script>
  • <style>...</style>
  • در صورت نیاز می‌توانید <noscript> را هم حذف کنید.

نمونه‌های قالب‌بندی فهرست

  • <ul><li>مورد</li></ul> -> - مورد
  • <ol><li>مورد</li></ol> -> - مورد (Standard/Minimal)
  • <ol><li>مورد</li></ol> -> 1. مورد (Detailed)

پرسش‌های متداول

شکست خط‌ها عجیب به نظر می‌رسند

این ابزار تگ‌هایی مانند <p>/<br>/<li> را به شکست خط تبدیل می‌کند. برای نزدیک‌تر شدن به قالب دلخواه خود، Line Break Rule و Max Consecutive Line Breaks را تنظیم کنید.

آیا بلوک‌های script/style نگه داشته می‌شوند؟

خیر. <script> و <style> همیشه حذف می‌شوند.

درباره entityهایی مثل &amp; چه می‌شود؟

می‌توانید decode را روشن یا خاموش کنید. وقتی می‌خواهید &amp; به & تبدیل شود، decode را روشن کنید.

چطور شکست خط‌ها و فاصله‌های اضافی را کم کنم؟

قاعده Minimal را انتخاب کنید، Collapse Spaces را روشن نگه دارید و Max Consecutive Line Breaks را روی 1 یا 2 بگذارید.

آیا می‌توانم URLها را همراه با متن لینک نگه دارم؟

بله. Link Handling را روی Text + URL بگذارید.

نکات

  • این ابزار HTML ورودی را تجزیه می‌کند؛ اسکریپت‌ها را اجرا نمی‌کند و خروجی کامل رندر مرورگر را بازتولید نمی‌کند.
  • ورودی‌های بسیار بزرگ ممکن است زمان بیشتری برای تبدیل نیاز داشته باشند.
  • محتوای ورودی در پارامترهای query URL ذخیره نمی‌شود.