SEO-ро бо robots.txt тақвият диҳед: тавассути назорати оқилонаи crawler иҷроиши сайтро беҳтар кунед
Назорати crawler дар ҳам SEO ва ҳам иҷрои вебсайт нақши муҳим дорад. Crawler-ҳои муҳаррикҳои ҷустуҷӯ аз вебсайт мегузаранд ва маълумот ҷамъ меоранд, то битавонанд додаҳои лозимаро барои нишон додани саҳифаҳо дар натиҷаҳои ҷустуҷӯ дарёфт кунанд. Агар рафтори crawler-ҳоро ба таври дуруст идора кунед, метавонед натиҷаҳои SEO ва иҷрои сайтро беҳтар намоед.
Воситаи марказӣ барои ин robots.txt аст. Ин мақола robots.txt-ро аз асосҳо то истифодаи амалӣ, нуктаҳои эҳтиёт ва техникаҳои пешрафта ба таври муфассал шарҳ медиҳад, то шумо ба истифодаи он воқеан ҳунарманд шавед.

Боби 1: Асосҳои robots.txt

robots.txt чист? Назорати crawler чӣ гуна кор мекунад
Robots.txt is a plain-text file placed in the root directory of a website. It tells crawlers which parts of the site they may crawl and which parts they should not crawl.
When a crawler accesses a website, it usually reads robots.txt first and then crawls the site according to those instructions. Robots.txt is a request to crawlers, not a forceful block, but major search engines do respect it. However, because malicious crawlers and some other bots may ignore robots.txt, you should never rely on it alone to protect confidential information.
Where to place robots.txt, file format, and character set
Robots.txt бояд дар директорияи решавии вебсайт ҷойгир шавад, масалан https://example.com/robots.txt.
Агар онро дар зердиректория ҷойгир кунед, кор намекунад. Номи файл низ бояд бо ҳарфи хурд robots.txt бошад.
Формати файл бояд матни оддӣ бошад ва истифодаи рамзгузории UTF-8 сахт тавсия мешавад. Агар рамзгузории дигарро истифода баред, crawler-ҳо метавонанд файлро дуруст шарҳ дода натавонанд.
Синтаксиси асосӣ: User-agent, Disallow, Allow ва ҷузъиёти қоидаҳо
Robots.txt бо дастурҳое мисли User-agent, Disallow ва Allow навишта мешавад. Ин дастурҳо ба ҳарфи калон/хурд ҳассосанд ва ҳар яке дар як сатр навишта мешаванд.
User-agent:
Муайян мекунад, ки қоида ба кадом crawler татбиқ мешавад. Шумо метавонед crawler-и мушаххасро ном баред ё барои ҳар crawler аз * истифода кунед. Бо муайян кардани чанд сатрҳои User-agent, метавонед барои crawler-ҳои гуногун қоидаҳои ҷудогона созед. Мисолҳо:
User-agent: Googlebot,
User-agent: Bingbot,
User-agent: *.
Disallow:
Муайян мекунад, ки кадом роҳ набояд crawler карда шавад. Он ҳамчун роҳи нисбӣ бо аломати / дар оғоз навишта мешавад. Сатри холии Disallow маънои онро дорад, ки ҳама чиз иҷозат дода шудааст. Мисолҳо:
Disallow: /private/,
Disallow:.
Allow:
Муайян мекунад, ки кадом роҳ метавонад crawler карда шавад. Он вақте истифода мешавад, ки мехоҳед бахше аз ҷойеро, ки бо Disallow баста будед, иҷозат диҳед. Дар ин ҳолат қоидаи Allow бар Disallow бартарӣ дорад. Мисол:
Disallow: /private/and
Allow: /private/public.html.
Истифодаи аломатҳои ҷокерӣ (*) ва ($): мувофиқати фасеҳи роҳ ва истифодаи пешрафта
Аломати ситора ҳар гуна сатри аломатҳоро мувофиқат мекунад. Масалан, Disallow: /*.pdf ҳар як файли PDF-ро мебандад ва Disallow: /images/*.jpg$ танҳо файлҳои JPG-ро зери директорияи /images/ мебандад.
Аломати доллар охири сатрро мувофиқат мекунад. Масалан, Disallow: /blog/$ дастрасӣ ба худи директорияи /blog/-ро мебандад, аммо ҳамчунон ба нишонӣҳое мисли /blog/article1/ иҷозат медиҳад.
Танзими Crawl-delay: кам кардани бори сервер ва таъсири он ба Googlebot
Бо дастури Crawl-delay метавонед фосилаи байни дархостҳои crawler-ро ба сония муайян кунед. Ин ҳангоми баланд будани бори сервер метавонад кӯмак кунад, аммо Googlebot Crawl-delay-ро расман дастгирӣ намекунад. Google пештар танзимоти crawl-rate-ро дар Search Console тавсия медод, аммо ҳоло инро ба таври худкор идора мекунад, бинобар ин одатан диққати зиёд намехоҳад.
Азбаски Google танзими худкори crawl-rate-ро беҳтар кардааст ва дар доираи кӯшишҳои васеътар барои сода кардани таҷрибаи корбар, Google дастгирии абзори crawl rate limiter-ро дар Search Console қатъ мекунад.
Қатъи пешбинишудаи дастгирии абзори crawl-rate limiter дар Search Console
Он метавонад то ҳол барои crawler-ҳои дигар таъсир дошта бошад.
Муайян кардани Sitemap: роҳнамоӣ ба crawler-ҳо ва кор бо чанд sitemap
Шумо метавонед URL-ҳои sitemap-ро бо дастури Sitemap муайян кунед. Ин ба crawler-ҳо барои беҳтар фаҳмидани сохтори вебсайт кӯмак мекунад ва самаранокии crawl-ро баланд мебардорад. Шумо инчунин метавонед якчанд sitemap муайян кунед. Мисолҳо: Sitemap: https://example.com/sitemap.xml and Sitemap: https://example.com/sitemap_images.xml.
★
SEO-ро то сатҳи баланд баред: бо sitemap.xml сохтори сайти дӯстдоштаи Google созед
Боби 2: Намунаҳои амалӣ барои robots.txt

Муҳофизати саҳифаҳои танҳо барои воридшудагон: Disallow: /member/
Мундариҷае, ки воридшавӣ талаб мекунад, ба мисли саҳифаҳои танҳо барои аъзоён, одатан бояд аз индексатсияи муҳаррикҳои ҷустуҷӯ хориҷ карда шавад.
Бо истифодаи robots.txt шумо метавонед crawler-ҳоро аз дастрасӣ ба ин саҳифаҳо боздоред ва crawl-и беҳуда кам кунед. Масалан, агар мундариҷаи танҳо барои аъзоён дар /member/ нигоҳдорӣ шавад, навиштани Disallow: /member/ дастрасиро ба ҳамаи файлҳо ва зердиректорияҳои он ҷойгоҳ мебандад.
Аммо robots.txt танҳо як дархост ба crawler-ҳост, бинобар ин crawler-ҳои бадқасд метавонанд онро нодида гиранд.
Маълумоти воқеан ҳассос бояд бо аутентификатсияи серверӣ ҳифз шавад, на танҳо бо robots.txt. Robots.txt бояд ҳамчун усули ёрирасон барои маҳдуд кардани дастрасии crawler-ҳо ва сарфа кардани захираҳои сервер дида шавад. Дар бисёр ҳолатҳо, иҷозати дастрасӣ ба худи саҳифаи воридшавӣ мувофиқ аст, то crawler-ҳо дарк кунанд, ки аутентификатсия лозим аст.
Назорати URL-ҳои дорои параметр: Disallow: /*?page=*
URL-ҳои дорои параметр метавонанд як мундариҷаро тавассути чанд URL дастрас созанд, ки ин метавонад ҳамчун мундариҷаи такрорӣ арзёбӣ шавад. Масалан, агар шумо барои саҳифабандӣ параметри ?page= истифода баред, метавонанд саҳифаҳои example.com/blog?page=1 ва example.com/blog?page=2 ба вуҷуд оянд, ки URL-ҳои гуногун доранд, вале қариб якхелаанд.
Бо навиштани Disallow: /*?page=* метавонед дастрасиро ба ҳамаи URL-ҳое, ки параметри page= доранд, бубандед. Аммо ин метавонад тамоми мундариҷаи саҳифабандишударо аз муҳаррикҳои ҷустуҷӯ хориҷ кунад ва ба SEO зарар расонад.
Роҳи беҳтар истифодаи canonical tag ва нишон додани URL-и каноникӣ аст. Агар ҳар саҳифаи саҳифабандишуда бо тег canonical ба саҳифаи аввал, масалан example.com/blog, ишора кунад, шумо метавонед аз мушкилоти мундариҷаи такрорӣ худдорӣ кунед ва саҳифаи дурустро ба муҳаррикҳои ҷустуҷӯ расонед.
Истифодаи robots.txt барои назорати саҳифабандӣ бояд ҳамчун чораи охирин дида шавад, вақте ки татбиқи тегҳои canonical имконнопазир аст.
Назорати crawler-и мушаххас: User-agent: YandexBot Disallow: /
Бо дастури User-agent метавонед барои crawler-ҳои гуногун қоидаҳои ҷудогона созед. Агар нависед User-agent: YandexBot ва пас Disallow: /, танҳо YandexBot аз тамоми сайт маҳдуд мешавад. Crawler-ҳои дигар қоидаҳои зерини дигар сатрҳои User-agent-ро иҷро мекунанд, ё қоидаҳои зери User-agent: *.
Ҳолатҳои маъмуле, ки шояд хоҳед crawler-и мушаххасро маҳдуд кунед, чунинанд.
Ҳангоме ки crawler-и мушаххас ба сервер бори аз ҳад зиёд меорад
Ҳангоме ки crawler-и мушаххас robots.txt-ро нодида мегирад ва мушкил эҷод мекунад
Ҳангоме ки мехоҳед мундариҷаи вобаста ба минтақаҳоро аз crawler-ҳои муҳаррикҳои ҷустуҷӯе, ки дар он минтақа истифода намешаванд, пинҳон кунед
Дар ин ва ҳолатҳои монанд, дастури User-agent муфид аст. Номҳои crawler-ҳои асосии муҳаррикҳои ҷустуҷӯро метавон дар ҳуҷҷатҳои расмии ҳар муҳаррик тасдиқ кард.
Боби 3: эҳтиётҳо ва хатогиҳои маъмули robots.txt

Robots.txt абзори пурқувват аст, аммо танзимоти нодуруст метавонад барои вебсайт оқибатҳои ҷиддӣ дошта бошад. Ин боб хатогиҳои маъмул ва нуқтаҳои эҳтиётро шарҳ медиҳад, то шумо robots.txt-ро бехатар ва муассир истифода баред.
3.1 Зарари SEO аз хатогиҳои robots.txt: берун мондан аз ҷустуҷӯ
Хатогии ҷиддитарин дар robots.txt тасодуфан бастани саҳифаҳои муҳим аз crawl аст.
Агар шумо, масалан, саҳифаҳои маҳсулот ё хидматро бубандед, он саҳифаҳо метавонанд аз индекси ҷустуҷӯ хориҷ шаванд ва аз натиҷаҳои ҷустуҷӯ нопадид гарданд. Ин бевосита трафики вебсайтро кам мекунад ва метавонад SEO-ро сахт зарар расонад.
Ҳар боре ки robots.txt-ро тағйир медиҳед, ҳатман аз абзори санҷиши robots.txt дар Google Search Console истифода баред, то бовар ҳосил кунед, ки танҳо саҳифаҳои пешбинишуда баста шудаанд. Пас аз тағйирот, рейтингу трафикро мунтазам назорат кунед, то ҳар гуна таъсири ғайричашмдоштро пай баред.
3.2 Хатогии истифодаи Allow барои саҳифаҳое, ки бояд баста мешуданд
Дастури Allow бояд танҳо вақте истифода шавад, ки мехоҳед бахше аз ҷойеро, ки бо Disallow баста шудааст, иҷозат диҳед. Масалан, агар хоҳед /private/-ро бубандед, вале танҳо /private/public.html-ро иҷозат диҳед, шумо бояд ҳам Disallow: /private/ and Allow: /private/public.html.
Истифодаи танҳо Allow барои минтақае, ки қаблан бо Disallow баста нашудааст, ягон таъсир надорад. Crawler-ҳо одатан ҳар саҳифаро дастрас мешуморанд, агар он ба таври возеҳ бо Disallow баста нашуда бошад.
3.3 Ҳассосият ба ҳарфҳои калон/хурд: бодиққат бошед
User-agent, Disallow, Allow ва роҳҳои URL ҳама ба ҳарфи калон/хурд ҳассосанд. Масалан, disallow: /images/ аз Disallow: /images/ фарқ мекунад ва мувофиқи мақсад кор намекунад.
Ҳангоми навиштани robots.txt ҳамеша ҳарфгузории дурустро истифода баред ва барои хатогиҳои имлоӣ бодиққат санҷед.
3.4 Фарқ дар рафтори crawler-ҳо: муносибат бо crawler-и зараровар
Robots.txt бо crawler-ҳои бо нияти хуб мисли Googlebot ва Bingbot кор мекунад, аммо crawler-ҳои бадқасд метавонанд онро пурра нодида гиранд. Ин маънои онро дорад, ки robots.txt танҳо барои ҳифзи маълумоти ҳассос кофӣ нест.
Маълумоте, ки воқеан махфист, бояд бо аутентификатсияи серверӣ ё маҳдудиятҳои дастрасӣ ҳифз шавад. Бояд фаҳмид, ки robots.txt танҳо абзори назорати crawler-ҳои ҳамкор аст ва ҳамчун чораи амниятӣ басанда нест.
3.5 robots.txt танҳо амният таъмин карда наметавонад
Тавре ки боло гуфта шуд, robots.txt ҳамчун чораи амниятӣ кофӣ нест. Ҳар кас метавонад мундариҷаи файли robots.txt-ро бихонад, бинобар ин корбарони бадқасд метавонанд онро ҳамчун ишора барои ёфтани ҷойҳои маҳдуд истифода баранд.
Амнияти воқеӣ ба муносибати чандқабата ниёз дорад, ки чанд усулро, аз ҷумла муҳофизати бо парол, рӯйхати назорати дастрасӣ ва firewall-ҳоро, на танҳо robots.txt, дар бар мегирад.
3.6 Рафтори ғайричашмдошт ҳангоми аз ҳад зиёд истифода бурдани wildcard-ҳо
Аломатҳои ҷокерӣ мисли * ва $ мувофиқати роҳро фасеҳтар мекунанд, аммо аз ҳад зиёд истифода бурдани онҳо метавонад саҳифаҳоеро бубандад, ки ҳеҷ гоҳ нияти бастани онҳо набуд. Масалан, Disallow: /*image* на танҳо директорияи /images/-ро мебандад, балки URL-еро мисли /article/my-image.jpg низ мебандад.
Ҳангоми истифодаи аломатҳои ҷокерӣ, доираи пурраи таъсири онҳоро бодиққат тафтиш кунед ва бовар ҳосил намоед, ки саҳифаҳо тасодуфан баста нашудаанд.
3.7 Cache шудани robots.txt: таъхир дар инъикоси тағйирот
Муҳаррикҳои ҷустуҷӯ robots.txt-ро кэш мекунанд, бинобар ин тағйирот на ҳамеша фавран инъикос мешаванд. Ҳатто агар пас аз таҳрир онро бо абзори санҷишӣ тафтиш кунед, натиҷа метавонад ҳанӯз ба версияи қаблӣ асос ёфта бошад.
Дар Google Search Console шумо метавонед тавассути robots.txt tester дархост кунед, ки robots.txt дубора гирифта шавад. Ин метавонад таъхири то нав шудани кэш ва инъикоси тағйиротро кӯтоҳ кунад.
Бо риояи ин эҳтиётҳо ва танзими дурусти robots.txt метавонед SEO-ро беҳтар намоед ва аз хатари нолозим пешгирӣ кунед.
Боби 4: абзорҳои сохтани robots.txt ва усулҳои санҷиш

This chapter explains how to create, test, and revise robots.txt efficiently. By following these steps, you can prevent unintended mistakes and maximize website performance.
4.1 Истифодаи абзорҳои сохтани robots.txt
You can write robots.txt manually, but online tools let you do it faster and with fewer mistakes. These tools generate a robots.txt file automatically once you input the necessary directives, which helps reduce syntax errors and rule mistakes.
Representative tools include the following.
Google Search Console robots.txt tester:
A built-in Search Console tool that can create, edit, and test robots.txt. If you already use Search Console, this is often the easiest choice.
SEO checker tools:
Some SEO tools include robots.txt generation features. Because they can be used together with other SEO functions, they are convenient when optimizing a site more broadly.
Other online robots.txt generators:
If you search the web for robots.txt generator, you will find many free tools. These are suitable for creating a simple robots.txt file.
Which tool is best depends on your needs and the size of the website.
4.2 Санҷиши robots.txt дар Google Search Console
Once you create robots.txt, you must test it to verify that crawlers interpret it correctly. Google Search Console provides a robots.txt testing tool that can show whether a specific URL is crawlable and whether there are mistakes in the file.
The testing process is as follows.
Open Google Search Console and select the property for the target website.
Choose the robots.txt tester from the menu on the left.
Enter the URL you want to test and click the Test button.
Review whether the URL is crawlable and which directive is being applied.
Whenever you change robots.txt, use this tool and confirm that the file works exactly as intended.
4.3 Баррасӣ ва ислоҳи robots.txt
Because robots.txt is placed in the root directory of a website, you can open it directly in a browser, review its contents, and revise it if necessary. For example, accessing https://example.com/robots.txt will display the file.
When making corrections, open robots.txt in a text editor, make the necessary changes, and upload it to the server. Because search engines need to refresh their cache, it may take a little time before the changes are reflected.
The robots.txt tester in Google Search Console lets you edit and test at the same time, making it easier to iterate on corrections and verification.
By following these steps, you can keep robots.txt in an optimal state and improve both SEO and site performance.
Боби 5: назорати crawler берун аз robots.txt

Фарқ аз meta robots tag ва тарзи истифодаи ҳар кадом
The meta robots tag is used to control crawlers on an individual page basis. When used together with robots.txt, it enables finer control. Noindex instructs search engines not to index a page, and nofollow instructs them not to follow links. If you add noindex to a page that has also been blocked from crawling with robots.txt, it may help remove an already indexed page from search results in some cases.
Истифодаи якҷоя бо noindex ва nofollow
You can specify multiple directives separated by commas, such as noindex,follow.
Назорат тавассути сарлавҳаи HTTP X-Robots-Tag
By using X-Robots-Tag in the HTTP response header, you can control crawling for non-HTML files such as PDFs and images as well. This requires server-side configuration.
Хулоса
Robots.txt is an indispensable tool for both SEO and website performance.
When you understand the points covered in this article and configure robots.txt properly, you can draw out the full potential of your website. It is important to stay current and keep optimizing robots.txt over time.
Замима: мисолҳои robots.txt, аз ҷумла мисолҳои пешрафта
Ба як crawler-и муайян танҳо навъҳои муайяни файлҳоро иҷозат диҳед:
User-agent: Googlebot-Image Allow: /images/*.jpg Allow: /images/*.png Disallow: / User-agent: * Disallow: /images/
Дастрасиро барои як crawler-и муайян суст кунед:
User-agent: AhrefsBot Crawl-delay: 10 User-agent: * Allow: /
Use these advanced patterns to optimize your website and move it toward success.