PR SEO

robots.txt দিয়ে SEO boost করুন: smarter crawler control দিয়ে site performance improve করুন

Published: 2025.01.08 Updated: 2026.03.12
বিশ্বজুড়ে ছড়িয়ে থাকা network

crawler control SEO ও website performance দুটিতেই important role পালন করে। search-engine crawler website ঘুরে information collect করে যাতে search result-এ page show করার needed data retrieve করতে পারে। crawler behavior appropriately control করলে SEO result ও site performance improve করা যায়।

এর central tool হলো robots.txt। basic থেকে practical use, caution point এবং advanced technique পর্যন্ত এই article robots.txt in depth explain করে, যাতে আপনি genuinely proficient হতে পারেন।

complete SEO guide [2025 edition]: higher search ranking-এর full map
complete SEO guide [2025 edition]: higher search ranking-এর full map

Chapter 1: robots.txt-এর basic

বিশ্বজুড়ে ছড়িয়ে থাকা network

robots.txt কী? crawler control কীভাবে কাজ করে

robots.txt হলো website root directory-তে placed plain-text file। এটি crawler-কে site-এর কোন part crawl করা যায় এবং কোন part crawl করা উচিত নয় তা জানায়।

crawler website access করলে usually প্রথমে robots.txt read করে, তারপর সেই instruction অনুযায়ী site crawl করে। robots.txt crawler-এর কাছে request, forceful block নয়, তবে major search engine এটি respect করে। কিন্তু malicious crawler ও কিছু bot robots.txt ignore করতে পারে, তাই confidential information protect করতে শুধু এটির ওপর rely করা উচিত নয়।

robots.txt কোথায় place করবেন, file format ও character set

robots.txt website-এর root directory-তে place করতে হবে, যেমন https://example.com/robots.txt।

subdirectory-তে place করলে কাজ করবে না। file name-ও lowercase robots.txt হতে হবে।

file format plain text হতে হবে, এবং UTF-8 encoding strongly recommended। অন্য encoding use করলে crawler file correctly interpret করতে fail করতে পারে।

basic syntax: User-agent, Disallow, Allow এবং rule detail

robots.txt User-agent, Disallow ও Allow-এর মতো directive দিয়ে written। এগুলো case-sensitive এবং প্রতি line-এ একটি করে written হয়।

  • User-agent:

    Specifies which crawler a rule applies to. You can name a specific crawler or use * for every crawler. By declaring multiple User-agent lines, আপনি পারেন define different rules for different crawler. Examples:

    User-agent: Googlebot

    ,

    User-agent: Bingbot

    ,

    User-agent: *

    .

  • Disallow:

    crawl করা যাবে না এমন path specify করে। এটি slash দিয়ে শুরু হওয়া relative path হিসেবে written হয়। empty Disallow line মানে everything allowed। example:

    Disallow: /private/

    ,

    Disallow:

    .

  • Allow:

    crawl করা যেতে পারে এমন path specify করে। Disallow দিয়ে blocked location-এর কোনো part allow করতে চাইলে এটি use হয়। এই case-এ Allow rule Disallow-এর ওপর precedence নেয়। example:

    Disallow: /private/

    and

    Allow: /private/public.html

    .

wildcard (*) ও ($) ব্যবহার: flexible path matching ও advanced usage

The asterisk matches any character string. যেমন, Disallow: /*.pdf blocks every PDF file, and Disallow: /images/*.jpg$ blocks only JPG files under the /images/ directory.

The dollar sign matches the end of a line. যেমন, Disallow: /blog/$ /blog/article1/-এর মতো address allow রেখেও /blog/ directory itself access block করে।

Crawl-delay setting: server load reduce এবং Googlebot effect

Crawl-delay directive দিয়ে crawler request-এর interval seconds-এ specify করা যায়। server load high হলে help করতে পারে, কিন্তু Googlebot officially Crawl-delay support করে না। Google আগে Search Console-এ crawl-rate setting recommend করত, এখন automatically handle করে, তাই usually বেশি attention দরকার হয় না।

Google automatic crawl-rate adjustment improve করেছে এবং user experience simplify করার broader effort অনুযায়ী Search Console-এর crawl rate limiter tool support end করছে।

Search Console-এর crawl-rate limiter tool support end করার plan

other crawler-এ এখনও effect থাকতে পারে।

Sitemap specify: crawler guide করা এবং multiple sitemap handle করা

You can specify sitemap URLs with the Sitemap directive. This helps crawler understand the structure of the website more easily and improves crawl efficiency. You can also specify multiple sitemaps. Examples: Sitemap: https://example.com/sitemap.xml and Sitemap: https://example.com/sitemap_images.xml.

SEO supercharge করুন: sitemap.xml দিয়ে Google-friendly site structure build করুন

Chapter 2: practical robots.txt example

laptop-এ typing করছেন এমন man

login-required page protect করা: Disallow: /member/

members-only page-এর মতো login required content generally search-engine indexing থেকে exclude করা উচিত।

ব্যবহার করে robots.txt, আপনি পারেন prevent crawler from accessing these pages and reduce wasted crawling. যেমন, if members-only content is stored under /member/, writing Disallow: /member/ সেই location-এর under থাকা every file ও subdirectory-তে access block করে।

তবে robots.txt crawler-এর কাছে only request, তাই malicious crawler এটি ignore করতে পারে।

truly sensitive information robots.txt নয়, server-side authentication দিয়ে protect করতে হবে। crawler access limit ও server resource save করার supporting method হিসেবে robots.txt treat করা উচিত। অনেক ক্ষেত্রে login page itself access allow করা appropriate, যাতে crawler authentication required বুঝতে পারে।

parameterized URL control: Disallow: /*?page=*

Parameterized URLs can sometimes make the same content accessible under multiple URLs, which may be treated as duplicate content. যেমন, if you use a ?page= pagination-এর parameter use করলে example.com/blog?page=1 এবং example.com/blog?page=2-এর মতো different URL কিন্তু almost same content থাকা page তৈরি হতে পারে।

এভাবে লিখলে Disallow: /*?page=*, আপনি পারেন block access to every URL that includes the page= parameter. However, this can remove all paginated content from search engine and may hurt SEO.

better approach হলো canonical tag use করে canonical URL indicate করা। every paginated page canonical tag দিয়ে example.com/blog-এর মতো first page-এ point করলে duplicate-content issue avoid এবং correct page search engine-কে communicate করা যায়।

canonical tag implement করা possible না হলে pagination control করতে robots.txt use করা last resort হিসেবে treat করা উচিত।

specific crawler control: User-agent: YandexBot Disallow: /

With the User-agent directive, আপনি পারেন set different rules for different crawler. যদি আপনি write User-agent: YandexBot এবং তারপর Disallow: /, only YandexBot হবে be blocked from the entire site. Other crawler হবে follow rules set under other User-agent sections, or the rules under User-agent: *.

specific crawler control করতে চাইতে পারেন এমন typical case নিচে।

  • specific crawler server-এ excessive load দিচ্ছে যখন

  • specific crawler robots.txt ignore করে problem cause করছে যখন

  • যে region-এ search engine use হয় না তার crawler থেকে region-specific content hide করতে চাইলে

এ ধরনের case-এ User-agent directive useful। major search-engine crawler-এর name প্রতিটি search engine-এর official documentation-এ confirm করা যায়।

Chapter 3: robots.txt-এর caution ও common mistake

smartphone operate করছেন এমন man

robots.txt powerful tool, কিন্তু incorrect setting website-এর জন্য serious consequence আনতে পারে। safely ও effectively robots.txt use করার জন্য এই chapter common mistake ও caution point explain করে।

3.1 robots.txt mistake থেকে SEO damage: search থেকে পড়ে যাওয়া

robots.txt-এর most serious mistake হলো accidentally important page crawling থেকে block করা।

যেমন product page বা service page disallow করলে সেগুলো search index থেকে পড়ে গিয়ে search result থেকে disappear করতে পারে। এটি directly website traffic reduce করে এবং SEO severely harm করতে পারে।

robots.txt change করলে always Google Search Console-এর robots.txt testing tool use করে only intended page blocked কি না confirm করুন। change-এর পরে ranking ও traffic regularly monitor করে unintended effect catch করুন।

3.2 block করতে চাওয়া page-এর জন্য Allow use করার mistake

The Allow directive হওয়া উচিত used only when you want to permit part of a location that has been blocked with Disallow. যেমন, if you want to block /private/ but allow only /private/public.html, you would use both Disallow: /private/ and Allow: /private/public.html.

যে area disallow করা হয়নি সেখানে Allow alone use করলে effect নেই। Disallow দিয়ে explicitly block না করলে crawler generally every page accessible ধরে নেয়।

3.3 case sensitivity: careful attention দিন

User-agent, Disallow, Allow, and URL paths are all case-sensitive. For example, disallow: /images/ এর সঙ্গে differently treated হয় Disallow: /images/ and হবে not work as intended.

robots.txt লেখার সময় always correct capitalization use করুন এবং typo carefully check করুন।

3.4 crawler behavior difference: malicious crawler handle করা

robots.txt Googlebot ও Bingbot-এর মতো good-faith crawler-এর সঙ্গে কাজ করে, কিন্তু malicious crawler completely ignore করতে পারে। এর মানে robots.txt alone sensitive information protect করতে পারে না।

truly confidential information server-side authentication বা access restriction দিয়ে protect করতে হবে। robots.txt cooperative crawler control করার only tool, security measure হিসেবে sufficient নয় তা understand করতে হবে।

3.5 robots.txt alone security provide করতে পারে না

উপরের মতো, security measure হিসেবে robots.txt insufficient। robots.txt file-এর content যে কেউ read করতে পারে, তাই malicious user restricted area খুঁজতে clue হিসেবে use করতে পারে।

real security-এর জন্য password protection, access control list এবং firewall সহ multiple method combine করা layered approach দরকার, robots.txt alone নয়।

3.6 wildcard overuse থেকে unexpected behavior

Wildcards such as * and $ make path matching more flexible, but overusing them can block pages you never meant to block. যেমন, Disallow: /*image* শুধু /images/ directory নয়, /article/my-image.jpg-এর মতো URL-ও block করবে।

wildcard use করার সময় effect-এর full scope carefully check করুন এবং unintentionally page block করছেন না নিশ্চিত করুন।

3.7 robots.txt caching: change reflect হওয়ার আগে delay

search engine robots.txt cache করে, তাই change always immediately reflected হয় না। edit করার right after testing tool দিয়ে check করলেও result previous version based হতে পারে।

Google Search Console-এ robots.txt tester দিয়ে robots.txt আবার fetched করার request করা যায়। এতে cache update ও change reflected হওয়ার delay shorten হতে পারে।

এই caution follow করে এবং robots.txt properly configure করলে SEO improve ও unnecessary risk avoid করা যায়।

Chapter 4: robots.txt creation tool ও verification method

typing করছেন এমন man

এই chapter robots.txt efficiently create, test এবং revise করার পদ্ধতি explain করে। এই step follow করলে unintended mistake prevent এবং website performance maximize করা যায়।

4.1 robots.txt creation tool use করা

robots.txt manually লেখা যায়, কিন্তু online tool faster এবং fewer mistake সহ করতে দেয়। necessary directive input করলে এই tool automatically robots.txt file generate করে, যা syntax error ও rule mistake reduce করতে help করে।

representative tool নিচে।

  • Google Search Console robots.txt tester:

    Search Console built-in tool যা robots.txt create, edit এবং test করতে পারে। already Search Console use করলে এটি often easiest choice।

  • SEO checker tool:

    কিছু SEO tool robots.txt generation feature include করে। other SEO function-এর সঙ্গে together use করা যায় বলে broader site optimization-এ convenient।

  • other online robots.txt generator:

    web-এ robots.txt generator search করলে অনেক free tool পাবেন। simple robots.txt file create করার জন্য এগুলো suitable।

কোন tool best তা আপনার need ও website size-এর ওপর depend করে।

4.2 Google Search Console-এ robots.txt test করা

robots.txt create করলে crawler correctly interpret করছে কি না verify করতে test করতে হবে। Google Search Console robots.txt testing tool দেয় যা specific URL crawlable কি না এবং file-এ mistake আছে কি না show করতে পারে।

testing process নিচে।

  1. Google Search Console open করে target website-এর property select করুন।

  2. left menu থেকে robots.txt tester choose করুন।

  3. test করতে চাওয়া URL enter করে Test button click করুন।

  4. URL crawlable কি না এবং কোন directive applied হচ্ছে review করুন।

robots.txt change করলে এই tool use করে file exactly intended way-তে works কি না confirm করুন।

4.3 robots.txt review ও fix করা

robots.txt website root directory-তে placed বলে browser-এ directly open করে content review এবং necessary হলে revise করা যায়। যেমন https://example.com/robots.txt access করলে file display হবে।

correction করার সময় text editor-এ robots.txt open করুন, necessary change করুন এবং server-এ upload করুন। search engine cache refresh করতে হয় বলে change reflected হতে কিছু time লাগতে পারে।

Google Search Console-এর robots.txt tester edit ও test একসঙ্গে করতে দেয়, তাই correction ও verification iterate করা easier হয়।

এই step follow করলে robots.txt optimal state-এ keep করে SEO ও site performance দুটোই improve করা যায়।

Chapter 5: robots.txt ছাড়াও crawler control

meta robots tag থেকে difference এবং প্রতিটির use

meta robots tag individual page basis-এ crawler control করতে used। robots.txt-এর সঙ্গে together use করলে finer control possible। noindex search engine-কে page index না করতে instruct করে, আর nofollow link follow না করতে instruct করে। robots.txt দিয়ে crawl blocked page-এ noindex add করলে কিছু case-এ already indexed page search result থেকে remove করতে help করতে পারে।

noindex ও nofollow-এর সঙ্গে together use করা

noindex,follow-এর মতো comma separated multiple directive specify করা যায়।

X-Robots-Tag HTTP header দিয়ে control

HTTP response header-এ X-Robots-Tag use করে PDF ও image-এর মতো non-HTML file-এর crawling-ও control করা যায়। এর জন্য server-side configuration দরকার।

সারাংশ

robots.txt SEO ও website performance দুটির জন্য indispensable tool।

এই article-এ covered point understand করে robots.txt properly configure করলে website-এর full potential draw out করা যায়। stay current থাকা এবং time-এর সঙ্গে robots.txt optimize করতে থাকা important।

Appendix: advanced সহ robots.txt example

  • specific crawler-এর জন্য only certain file type allow করুন:

User-agent: Googlebot-Image Allow: /images/*.jpg Allow: /images/*.png Disallow: / User-agent: * Disallow: /images/

  • specific crawler-এর access slow down করুন:

User-agent: AhrefsBot Crawl-delay: 10 User-agent: * Allow: /

এই advanced pattern use করে website optimize করুন এবং success-এর দিকে move করুন।