HTML to Text Converter (tag арилгах ба мөр форматлах)

HTML-ээс уншихад хялбар үндсэн текстийг гаргаж, догол мөр/жагсаалтыг форматлан, script/style block-уудыг автоматаар арилгана.

Entity decode, link, image, table-ийн боловсруулалтыг сонгоод үр дүнг нэг урсгалаар хуулж эсвэл татаж авна уу.

Таны оролт энэ хөтөч дээр локалаар боловсруулагдаж, хэзээ ч сервер рүү илгээгдэхгүй.

HTML tag-уудыг арилгаж зөвхөн текст гаргах

Оролт ба гаралтыг зэрэгцүүлэн харуулах тул мөр таслах дүрэм, сонголтуудаа бага туршилтаар тохируулж болно.

Энэ хэрэгсэл юу хийдэг вэ

  • HTML tag-уудыг арилгана
  • Догол мөр ба жагсаалтын мөр таслалыг форматлана
  • script/style-ийг үргэлж хасаж, entity decode-ийг сонголтоор хийнэ

Хэрхэн ашиглах вэ

  1. HTML-ээ paste хийнэ үү (эсвэл файл ачаална уу).
  2. Шаардлагатай бол formatting option-уудаа тохируулна уу.
  3. Convert хийж, дараа нь үр дүнг хуулж эсвэл .txt болгон хадгална уу.

Жишээ

Стандарт дүрэм

Оролт (HTML)

<article><h2>Зарлал</h2><p>Тавтай морил<br>Finite Field-д</p><ul><li>Танилцуулга</li><li>Ашиглалт</li></ul></article>

Гаралт (Текст)

Зарлал

Тавтай морил
Finite Field-д

- Танилцуулга
- Ашиглалт

Minimal дүрэм

Оролт (HTML)

<div><p>A</p><p>B</p></div>

Гаралт (Текст)

A
B

Дэлгэрэнгүй дүрэм

Оролт (HTML)

<ol><li>Шаардлагаа тодорхойлох</li><li>Хэрэгжүүлэх</li></ol>

Гаралт (Текст)

1. Шаардлагаа тодорхойлох
2. Хэрэгжүүлэх

Форматлах сонголтууд

  • Мөр таслах дүрмээ солино уу: Standard / Minimal / Detailed.
  • HTML entity decode хийх эсэхээ сонгоно уу.
  • Space collapse болон хамгийн их дараалсан мөр таслалаар уншихад хялбар байдлыг тааруулна уу.
  • Comment, link, image, table-ийг хэрхэн боловсруулахыг удирдана уу.

Тэмдэглэл: <script> болон <style> үргэлж хасагдана.

Хөрвүүлэх дүрэм

Мөр таслал болгон хувиргах элементүүд (Standard)

  • <br>
  • <p>, гарчгууд (h1-h6), <li>
  • <div>, <section>, <article>, <header>, <footer>, <blockquote>

Үргэлж хасагдах элементүүд

  • <script>...</script>
  • <style>...</style>
  • Шаардлагатай үед <noscript>-ийг ч бас хасаж болно.

Жагсаалтын форматлах жишээ

  • <ul><li>Зүйл</li></ul> -> - Зүйл
  • <ol><li>Зүйл</li></ol> -> - Зүйл (Standard/Minimal)
  • <ol><li>Зүйл</li></ol> -> 1. Зүйл (Detailed)

Түгээмэл асуултууд

Мөр таслалууд хачин харагдаж байна

Энэ хэрэгсэл <p>/<br>/<li> зэрэг tag-уудыг мөр таслал болгож хувиргадаг. Зорьж буй форматаа ойртуулахын тулд Line Break Rule болон Max Consecutive Line Breaks-ийг тохируулна уу.

script/style block-ууд үлдэх үү?

Үгүй. <script> болон <style> үргэлж арилна.

&amp; зэрэг entity-үүд яах вэ?

Decode-ийг ON/OFF болгож болно. &amp;-ийг & болгон харуулахыг хүсвэл decode-ийг асаана уу.

Илүү мөр таслал, хоосон зайг яаж багасгах вэ?

Minimal дүрэм ашиглаж, Collapse Spaces-ийг ON байлгаж, Max Consecutive Line Breaks-ийг 1 эсвэл 2 болгоно уу.

Link text-тэй нь URL-ийг хадгалж болох уу?

Тийм. Link Handling-ийг Text + URL болгож тохируулна уу.

Тэмдэглэл

  • Энэ хэрэгсэл оролтын HTML source-ийг parse хийдэг; script ажиллуулахгүй бөгөөд хөтөчийн бүрэн render-ийг сэргээхгүй.
  • Маш том оролтод хөрвүүлэхэд илүү хугацаа шаардагдаж болно.
  • Оролтын агуулга URL query parameter-д хадгалагдахгүй.