PR SEO

Poboljsajte SEO uz robots.txt: poboljsajte performanse stranice pametnijom kontrolom crawlera

Published: 2025.01.08 Updated: 2026.03.12
A network spreading around the world

Upravljanje crawlerima igra vaznu ulogu i u SEO-u i u performansama web stranice. Crawleri trazilica prolaze kroz web stranicu i prikupljaju informacije kako bi dohvatili podatke potrebne za prikaz stranica u rezultatima pretrage. Odgovarajucim upravljanjem ponasanjem crawlera mozete poboljsati SEO rezultate i performanse stranice.

Sredisnji alat za to je robots.txt. Ovaj clanak detaljno objasnjava robots.txt, od osnova do prakticne uporabe, upozorenja i naprednih tehnika, kako biste njime doista postali vjesti.

The Complete SEO Guide [2025 Edition]: The Full Map to Higher Search Rankings
The Complete SEO Guide [2025 Edition]: The Full Map to Higher Search Rankings

Poglavlje 1: osnove robots.txt

A network spreading around the world

Sto je robots.txt? Kako radi upravljanje crawlerima

Robots.txt je datoteka obicnog teksta smjestena u korijenski direktorij web stranice. Ona govori crawlerima koje dijelove stranice smiju crawlovati, a koje ne smiju.

Kada crawler pristupi web stranici, obicno prvo procita robots.txt i zatim crawla stranicu prema tim uputama. Robots.txt je zahtjev crawlerima, a ne prisilna blokada, ali ga velike trazilice postuju. Medutim, buduci da zlonamjerni crawleri i neki drugi botovi mogu ignorirati robots.txt, nikada se ne biste trebali oslanjati samo na njega za zastitu povjerljivih informacija.

Gdje postaviti robots.txt, format datoteke i skup znakova

Robots.txt mora biti postavljen u korijenski direktorij web stranice, primjerice https://example.com/robots.txt.

Nece raditi ako ga stavite u poddirektorij. Naziv datoteke takoder mora biti malim slovima, robots.txt.

Format datoteke mora biti obicni tekst, a UTF-8 kodiranje se snazno preporucuje. Ako koristite drugo kodiranje, crawleri mozda nece ispravno protumaciti datoteku.

Osnovna sintaksa: User-agent, Disallow, Allow i detalji pravila

Robots.txt se pise direktivama poput User-agent, Disallow i Allow. Te su direktive osjetljive na velika i mala slova i pisu se jedna po retku.

  • User-agent:

    Odreduje na koji se crawler pravilo odnosi. Mozete navesti odredeni crawler ili koristiti * za svaki crawler. Navođenjem vise redaka User-agent mozete definirati razlicita pravila za razlicite crawlere. Primjeri:

    User-agent: Googlebot

    ,

    User-agent: Bingbot

    ,

    User-agent: *

    .

  • Disallow:

    Odreduje putanju koja se ne smije crawlovati. Pise se kao relativna putanja koja pocinje kosom crtom. Prazan Disallow redak znaci da je sve dopusteno. Primjeri:

    Disallow: /private/

    ,

    Disallow:

    .

  • Allow:

    Odreduje putanju koja se smije crawlovati. Koristi se kada zelite dopustiti dio lokacije koji je blokiran s Disallow. U tom slucaju pravilo Allow ima prednost nad Disallow. Primjer:

    Disallow: /private/

    and

    Allow: /private/public.html

    .

Kako koristiti zamjenske znakove (*) i ($): fleksibilno podudaranje putanja i napredna uporaba

Zvjezdica odgovara bilo kojem nizu znakova. Na primjer, Disallow: /*.pdf blokira svaku PDF datoteku, a Disallow: /images/*.jpg$ blokira samo JPG datoteke unutar direktorija /images/.

Znak dolara odgovara kraju retka. Na primjer, Disallow: /blog/$ blokira pristup samom direktoriju /blog/, ali i dalje dopusta adrese poput /blog/article1/.

Postavljanje Crawl-delay: smanjenje opterecenja servera i utjecaj na Googlebot

Pomocu direktive Crawl-delay mozete odrediti razmak izmedu zahtjeva crawlera u sekundama. To moze pomoci kada je opterecenje servera veliko, ali Googlebot službeno ne podrzava Crawl-delay. Google je ranije preporucivao postavke crawl ratea u Search Consoleu, ali ih sada obraduje automatski, pa to obicno ne zahtijeva mnogo paznje.

Buduci da je Google poboljsao automatsko prilagodavanje brzine crawlanja, i u skladu sa sire nastojanjem da se pojednostavi korisnicko iskustvo, Google ukida podrsku za alat za ogranicavanje crawl ratea u Search Consoleu.

Planned end of support for the crawl-rate limiter tool in Search Console

I dalje moze imati ucinka na druge crawlere.

Navođenje Sitemap-a: vodjenje crawlera i rad s vise sitemapova

URL-ove sitemapova mozete navesti direktivom Sitemap. To pomaže crawlerima da lakse razumiju strukturu web stranice i poboljsava ucinkovitost crawlanja. Mozete navesti i vise sitemapova. Primjeri: Sitemap: https://example.com/sitemap.xml and Sitemap: https://example.com/sitemap_images.xml.

Supercharge SEO: Build a Google-Friendly Site Structure with sitemap.xml

Poglavlje 2: prakticni primjeri robots.txt

A man typing on a laptop

Zastita stranica koje zahtijevaju prijavu: Disallow: /member/

Sadrzaj koji zahtijeva prijavu, poput stranica namijenjenih samo clanovima, opcenito treba iskljuciti iz indeksiranja u trazilicama.

Koristenjem robots.txt-a mozete sprijeciti crawlere da pristupe tim stranicama i smanjiti nepotrebno crawlanje. Na primjer, ako se sadrzaj samo za clanove nalazi pod /member/, zapisivanje Disallow: /member/ blokira pristup svakoj datoteci i poddirektoriju unutar te lokacije.

Medutim, robots.txt je samo zahtjev crawlerima, pa ga zlonamjerni crawleri mogu ignorirati.

Doista osjetljive informacije moraju se stititi autentifikacijom na serverskoj strani, a ne robots.txt-om. Robots.txt treba smatrati pomocnom metodom za ogranicavanje pristupa crawlera i stednju resursa servera. U mnogim je slucajevima prikladno dopustiti pristup samoj prijavnoj stranici kako bi crawleri razumjeli da je potrebna autentifikacija.

Upravljanje parametriziranim URL-ovima: Disallow: /*?page=*

Parametrizirani URL-ovi ponekad mogu uciniti isti sadrzaj dostupnim pod vise URL-ova, sto se moze tretirati kao duplicirani sadrzaj. Na primjer, ako koristite parametar ?page= za paginaciju, mozete dobiti stranice poput example.com/blog?page=1 i example.com/blog?page=2 koje imaju razlicite URL-ove, ali gotovo isti sadrzaj.

Zapisivanjem Disallow: /*?page=*, mozete blokirati pristup svakom URL-u koji sadrzi parametar page=. Medutim, to moze ukloniti sav paginirani sadrzaj iz trazilica i moze stetiti SEO-u.

Bolji pristup je koristiti canonical oznaku i oznaciti kanonski URL. Ako svaka paginirana stranica canonical oznakom upucuje na prvu stranicu, primjerice example.com/blog, mozete izbjeći probleme s dupliciranim sadrzajem i prenijeti trazilicama ispravnu stranicu.

Koristenje robots.txt-a za upravljanje paginacijom treba smatrati zadnjom opcijom kada implementacija canonical oznaka nije moguca.

Upravljanje odredenim crawlerom: User-agent: YandexBot Disallow: /

Pomocu direktive User-agent mozete postaviti razlicita pravila za razlicite crawlere. Ako napiszete User-agent: YandexBot i zatim Disallow: /, only YandexBot will be blocked from the entire site. Other crawlers will follow rules set under other User-agent sections, or the rules under User-agent: *.

Tipicni slucajevi kada mozete zeljeli upravljati odredenim crawlerom ukljucuju sljedece.

  • Kada odredeni crawler pretjerano opterecuje server

  • Kada odredeni crawler ignorira robots.txt i uzrokuje probleme

  • Kada zelite sakriti sadrzaj specifican za regiju od crawlera trazilica koje se ne koriste u toj regiji

U tim i slicnim slucajevima direktiva User-agent je korisna. Nazivi glavnih crawlera trazilica mogu se provjeriti u sluzbenoj dokumentaciji svake trazilice.

Poglavlje 3: upozorenja i uobicajene pogreske u robots.txt

A man operating a smartphone

Robots.txt je snazan alat, ali neispravne postavke mogu imati ozbiljne posljedice za web stranicu. Ovo poglavlje objasnjava uobicajene pogreske i stavke na koje treba paziti kako biste robots.txt koristili sigurno i ucinkovito.

3.1 Steta za SEO zbog pogresaka u robots.txt: ispadanje iz pretrage

Najozbiljnija pogreska u robots.txt-u je slucajno blokiranje vaznih stranica od crawlanja.

Ako, primjerice, blokirate stranice proizvoda ili usluga, te stranice mogu ispasti iz indeksa i nestati iz rezultata pretrage. To izravno smanjuje promet web stranice i moze ozbiljno stetiti SEO-u.

Kad god promijenite robots.txt, uvijek koristite alat za testiranje robots.txt-a u Google Search Consoleu kako biste potvrdili da su blokirane samo namjeravane stranice. Nakon promjene nastavite redovito pratiti rangiranje i promet kako biste uhvatili sve nezeljene posljedice.

3.2 Pogreska koristenja Allow za stranice koje ste htjeli blokirati

Direktivu Allow treba koristiti samo kada zelite dopustiti dio lokacije koji je blokiran s Disallow. Na primjer, ako zelite blokirati /private/ ali dopustiti samo /private/public.html, koristili biste i Disallow: /private/ and Allow: /private/public.html.

Koristenje Allow-a samo za podrucje koje nije zabranjeno nema ucinka. Crawleri opcenito pretpostavljaju da je svaka stranica dostupna osim ako je izricito blokirana s Disallow.

3.3 Velika i mala slova: pazljivo obratite pozornost

User-agent, Disallow, Allow i URL putanje svi su osjetljivi na velika i mala slova. Na primjer, disallow: /images/ tretira se drugacije od Disallow: /images/ i nece raditi kako je zamisljeno.

Pri pisanju robots.txt-a uvijek koristite ispravno pisanje velikih i malih slova i pazljivo provjerite tipografske pogreske.

3.4 Razlike u ponasanju crawlera: kako se nositi sa zlonamjernim crawlerima

Robots.txt radi s crawlerima dobre volje poput Googlebota i Bingbota, ali zlonamjerni crawleri ga mogu potpuno ignorirati. To znaci da robots.txt sam ne moze zastititi osjetljive informacije.

Informacije koje su doista povjerljive moraju se stititi autentifikacijom na serverskoj strani ili ogranicenjima pristupa. Trebate razumjeti da je robots.txt samo alat za upravljanje kooperativnim crawlerima i da nije dovoljan kao sigurnosna mjera.

3.5 Robots.txt sam po sebi ne moze osigurati sigurnost

Kao sto je gore navedeno, robots.txt nije dovoljan kao sigurnosna mjera. Svatko moze procitati sadrzaj robots.txt datoteke, pa ga zlonamjerni korisnici mogu koristiti kao trag za pronalazenje ogranicenih podrucja.

Stvarna sigurnost zahtijeva slojevit pristup koji kombinira vise metoda, ukljucujuci zastitu lozinkom, popise kontrole pristupa i vatrozide, a ne samo robots.txt.

3.6 Neocekivano ponasanje zbog pretjerane uporabe zamjenskih znakova

Zamjenski znakovi poput * i $ čine podudaranje putanja fleksibilnijim, ali njihova pretjerana uporaba moze blokirati stranice koje nikada niste htjeli blokirati. Na primjer, Disallow: /*image* bi blokirao ne samo direktorij /images/ nego i URL poput /article/my-image.jpg.

Kada koristite zamjenske znakove, pazljivo provjerite puni opseg njihova ucinka i pobrinite se da ne blokirate stranice nehotice.

3.7 predmemoriranje robots.txt-a: kasnjenje prije nego se promjene odraze

Trazilice predmemoriraju robots.txt, pa se promjene ne odraze uvijek odmah. Cak i ako ga provjerite alatom za testiranje odmah nakon izmjene, rezultat se i dalje moze temeljiti na prethodnoj verziji.

U Google Search Consoleu mozete zatraziti da se robots.txt ponovno dohvatiti putem testera robots.txt-a. To moze skračiti odgodu prije nego se predmemorija azurira i promjene odraze.

Slijedeci ova upozorenja i pravilno konfigurirajuci robots.txt mozete poboljsati SEO i izbjeći nepotreban rizik.

Poglavlje 4: alati za izradu robots.txt-a i metode provjere

A man typing

Ovo poglavlje objasnjava kako ucinkovito izraditi, testirati i doraditi robots.txt. Slijedeci ove korake mozete sprijeciti nezeljene pogreske i maksimalno povecati performanse web stranice.

4.1 Koristenje alata za izradu robots.txt-a

Robots.txt mozete pisati i rucno, ali online alati to omogucuju brze i s manje pogresaka. Ti alati automatski generiraju robots.txt datoteku nakon sto unesete potrebne direktive, sto pomaze smanjiti sintaksne i logičke pogreske.

Reprezentativni alati ukljucuju sljedece.

  • Google Search Console robots.txt tester:

    Ugradeni alat u Search Consoleu koji moze stvarati, mijenjati i testirati robots.txt. Ako vec koristite Search Console, to je cesto najlaksi izbor.

  • SEO checker alati:

    Neki SEO alati ukljucuju funkcije za generiranje robots.txt-a. Buduci da se mogu koristiti zajedno s drugim SEO funkcijama, prakticni su pri sirej optimizaciji stranice.

  • Drugi online generatori robots.txt-a:

    Ako na webu potrazite robots.txt generator, pronaci cete mnogo besplatnih alata. Oni su prikladni za izradu jednostavne robots.txt datoteke.

Koji je alat najbolji ovisi o vasim potrebama i velicini web stranice.

4.2 Testiranje robots.txt-a u Google Search Consoleu

Nakon sto izradite robots.txt, morate ga testirati kako biste provjerili tumace li ga crawleri ispravno. Google Search Console nudi alat za testiranje robots.txt-a koji moze pokazati je li odredeni URL crawljabilan i postoje li pogreske u datoteci.

Postupak testiranja je sljedeci.

  1. Otvorite Google Search Console i odaberite property ciljane web stranice.

  2. Odaberite robots.txt tester iz izbornika lijevo.

  3. Unesite URL koji zelite testirati i kliknite gumb Test.

  4. Provjerite je li URL crawljabilan i koja se direktiva primjenjuje.

Kad god promijenite robots.txt, koristite ovaj alat i potvrdite da datoteka radi tocno kako je zamisljeno.

4.3 Pregled i ispravljanje robots.txt-a

Budući da se robots.txt nalazi u korijenskom direktoriju web stranice, mozete ga izravno otvoriti u pregledniku, pregledati sadrzaj i po potrebi ga doraditi. Na primjer, otvaranje https://example.com/robots.txt prikazat ce datoteku.

Prilikom ispravaka otvorite robots.txt u tekstualnom editoru, napravite potrebne promjene i prenesite ga na server. Buduci da trazilice moraju osvjeziti predmemoriju, moze proci neko vrijeme prije nego se promjene odraze.

Robots.txt tester u Google Search Consoleu omogucuje vam istodobno uredivanje i testiranje, sto olaksava ponavljanje ispravaka i provjere.

Slijedeci ove korake mozete drzati robots.txt u optimalnom stanju i poboljsati i SEO i performanse stranice.

Poglavlje 5: upravljanje crawlerima izvan robots.txt-a

Razlike u odnosu na meta robots oznaku i kako koristiti svaku

Meta robots oznaka koristi se za upravljanje crawlerima na razini pojedine stranice. Kada se koristi zajedno s robots.txt-om, omogucuje preciznije upravljanje. Noindex uputuje trazilice da ne indeksiraju stranicu, a nofollow im govori da ne prate poveznice. Ako dodate noindex na stranicu koja je takoder blokirana od crawlanja robots.txt-om, to u nekim slucajevima moze pomoci ukloniti vec indeksiranu stranicu iz rezultata pretrage.

Koristenje zajedno s noindex i nofollow

Mozete navesti vise direktiva odvojenih zarezima, primjerice noindex,follow.

Upravljanje putem HTTP zaglavlja X-Robots-Tag

Koristenjem X-Robots-Tag u HTTP response zaglavlju mozete upravljati crawlanjem i za ne-HTML datoteke poput PDF-ova i slika. To zahtijeva konfiguraciju na serverskoj strani.

Sažetak

Robots.txt je neizostavan alat i za SEO i za performanse web stranice.

Kada razumijete tocke pokrivene u ovom clanku i pravilno konfigurirate robots.txt, mozete izvući puni potencijal svoje web stranice. Vazno je ostati u toku i nastaviti optimizirati robots.txt kroz vrijeme.

Dodatak: primjeri robots.txt-a, ukljucujuci napredne

  • Dopusti samo odredene vrste datoteka za odredeni crawler:

User-agent: Googlebot-Image Allow: /images/*.jpg Allow: /images/*.png Disallow: / User-agent: * Disallow: /images/

  • Uspori pristup za odredeni crawler:

User-agent: AhrefsBot Crawl-delay: 10 User-agent: * Allow: /

Koristite ove napredne obrasce kako biste optimizirali svoju web stranicu i vodili je prema uspjehu.