Tingkatkan SEO dengan robots.txt: Tingkatkan Prestasi Laman Melalui Kawalan Perangkak yang Lebih Pintar
Crawler kawalan plays an penting peranan in both SEO and laman web prestasi. Search-engine perangkak pindah through a laman web and collect information so they boleh retrieve the data needed to show pages in search results. By controlling perangkak behavior appropriately, you boleh meningkatkan SEO results and laman prestasi.
Alat utama untuk ini ialah robots.txt. Artikel ini explains robots.txt in depth, from the basics to practical use, points of caution, and advanced techniques, so that you boleh become genuinely proficient with it.

Bab 1: The basics of robots.txt

Apakah robots.txt? Bagaimana kawalan perangkak berfungsi
Robots.txt is a teks biasa file diletakkan in the direktori akar of a laman web. It memberitahu perangkak which bahagian of the laman they boleh merangkak and which bahagian they tidak boleh merangkak.
Ketika crawler mengakses situs web, biasanya ia membaca robots.txt terlebih dahulu lalu men-crawl situs sesuai instruksi tersebut. Robots.txt adalah permintaan kepada crawler, bukan pemblokiran paksa, tetapi mesin pencari besar memang menghormatinya. Namun, karena crawler berbahaya dan beberapa bot lain dapat mengabaikan robots.txt, jangan pernah mengandalkannya saja untuk melindungi informasi rahasia.
Tempat meletakkan robots.txt, format file, dan character set
Robots.txt mesti be diletakkan in the direktori akar of the laman web, seperti https://example.com/robots.txt.
File ini tidak akan berfungsi jika ditempatkan di subdirektori. Nama file juga harus huruf kecil, yaitu robots.txt.
Format file harus berupa teks biasa, dan encoding UTF-8 sangat disarankan. Jika menggunakan encoding lain, crawler mungkin gagal menafsirkan file dengan benar.
Sintaks asas: User-agent, Disallow, Allow, dan butiran peraturan
Robots.txt is written with directives seperti User-agent, Disallow, and Allow. These directives are case-sensitive and are written one per line.
- User-agent: Menentukan crawler mana yang menjadi sasaran aturan. Anda dapat menyebut crawler tertentu atau memakai * untuk semua crawler. Dengan mendeklarasikan beberapa baris User-agent, Anda dapat menetapkan aturan berbeda untuk crawler berbeda. Contoh:
User-agent: Googlebot,User-agent: Bingbot,User-agent: *. - Disallow: Menentukan path yang tidak boleh di-crawl. Nilainya ditulis sebagai path relatif yang diawali garis miring. Baris Disallow kosong berarti semuanya diizinkan. Contoh:
Disallow: /private/,Disallow:. - Allow: Menentukan path yang boleh di-crawl. Ini digunakan ketika Anda ingin mengizinkan sebagian lokasi yang telah diblokir dengan Disallow. Dalam kasus tersebut, aturan Allow diprioritaskan atas Disallow. Contoh:
Disallow: /private/danAllow: /private/public.html.
Cara menggunakan wildcard (*) dan ($): pencocokan path yang fleksibel dan penggunaan lanjutan
Tanda bintang cocok dengan rangkaian karakter apa pun. Misalnya, Disallow: /*.pdf memblokir semua file PDF, dan Disallow: /images/*.jpg$ hanya memblokir file JPG di bawah direktori /images/.
Tanda dolar cocok dengan akhir baris. Misalnya, Disallow: /blog/$ memblokir akses ke direktori /blog/ itu sendiri sambil tetap mengizinkan alamat seperti /blog/article1/.
Menetapkan Crawl-delay: mengurangkan beban pelayan dan kesannya terhadap Googlebot
With the Crawl-delay directive, you boleh specify the interval between perangkak requests in seconds. This boleh help apabila pelayan load is tinggi, but Googlebot does not officially sokongan Crawl-delay. Google previously recommended merangkak-rate tetapan in Search Console, but now handles this secara automatik, so it usually does not require much attention.
Karena Google telah meningkatkan penyesuaian crawl rate otomatisnya, dan sejalan dengan upaya yang lebih luas untuk menyederhanakan pengalaman pengguna, Google mengakhiri dukungan untuk alat pembatas crawl rate di Search Console.
Rencana akhir dukungan untuk alat pembatas crawl rate di Search Console
Ini masih dapat berpengaruh pada crawler lain.
Menentukan Sitemap: memandu crawler dan menangani beberapa sitemap
Anda dapat menentukan URL sitemap dengan direktif Sitemap. Ini membantu crawler memahami struktur situs web dengan lebih mudah dan meningkatkan efisiensi crawl. Anda juga dapat menentukan beberapa sitemap. Contoh: Sitemap: https://example.com/sitemap.xml dan Sitemap: https://example.com/sitemap_images.xml.
β Perkuat SEO: bangun struktur situs yang ramah Google dengan sitemap.xml
Bab 2: Practical robots.txt examples

Melindungi halaman yang memerlukan login: Disallow: /member/
Konten yang memerlukan login, seperti halaman khusus anggota, umumnya harus dikecualikan dari pengindeksan mesin pencari.
Dengan menggunakan robots.txt, Anda dapat mencegah crawler mengakses halaman tersebut dan mengurangi crawling yang sia-sia. Misalnya, jika konten khusus anggota disimpan di bawah /member/, menulis Disallow: /member/ akan memblokir akses ke setiap file dan subdirektori di bawah lokasi tersebut.
Namun, robots.txt hanyalah permintaan kepada crawler, sehingga crawler berbahaya dapat mengabaikannya.
Informasi yang benar-benar sensitif harus dilindungi dengan autentikasi sisi server, bukan robots.txt. Robots.txt sebaiknya diperlakukan sebagai metode pendukung untuk membatasi akses crawler dan menghemat sumber daya server. Dalam banyak kasus, mengizinkan akses ke halaman login itu sendiri adalah pilihan yang tepat agar crawler memahami bahwa autentikasi diperlukan.
Mengontrol URL berparameter: Disallow: /*?page=*
URL berparameter terkadang membuat konten yang sama dapat diakses melalui beberapa URL, sehingga dapat diperlakukan sebagai konten duplikat. Misalnya, jika Anda menggunakan parameter ?page= untuk paginasi, Anda bisa mendapatkan halaman seperti example.com/blog?page=1 dan example.com/blog?page=2 yang URL-nya berbeda tetapi isinya hampir sama.
Dengan menulis Disallow: /*?page=*, Anda dapat memblokir akses ke setiap URL yang menyertakan parameter page=. Namun, ini dapat menghapus semua konten paginasi dari mesin pencari dan dapat merugikan SEO.
Pendekatan yang lebih baik adalah menggunakan tag canonical dan menunjukkan URL kanonis. Jika setiap halaman paginasi menunjuk ke halaman pertama, seperti example.com/blog, dengan tag canonical, Anda dapat menghindari masalah konten duplikat dan menyampaikan halaman yang benar kepada mesin pencari.
Menggunakan robots.txt untuk mengontrol paginasi sebaiknya diperlakukan sebagai pilihan terakhir ketika penerapan tag canonical tidak memungkinkan.
Mengontrol crawler tertentu: User-agent: YandexBot Disallow: /
Dengan direktif User-agent, Anda dapat menetapkan aturan berbeda untuk crawler berbeda. Jika Anda menulis User-agent: YandexBot lalu Disallow: /, hanya YandexBot yang akan diblokir dari seluruh situs. Crawler lain akan mengikuti aturan yang ditetapkan di bagian User-agent lain, atau aturan di bawah User-agent: *.
Kasus umum ketika Anda mungkin ingin mengontrol crawler tertentu meliputi hal berikut.
- Ketika crawler tertentu memberikan beban berlebihan pada server
- Ketika crawler tertentu mengabaikan robots.txt dan menimbulkan masalah
- Ketika Anda ingin menyembunyikan konten khusus wilayah dari crawler mesin pencari yang tidak digunakan di wilayah tersebut
Dalam kasus seperti ini, direktif User-agent berguna. Nama crawler mesin pencari utama dapat dikonfirmasi di dokumentasi resmi masing-masing mesin pencari.
Bab 3: Perhatian dan kesalahan umum dalam robots.txt

Robots.txt adalah alat yang kuat, tetapi pengaturan yang salah dapat menimbulkan konsekuensi serius bagi situs web. Bab ini menjelaskan kesalahan umum dan hal-hal yang perlu diperhatikan agar Anda dapat menggunakan robots.txt dengan aman dan efektif.
3.1 Kerusakan SEO akibat kesalahan robots.txt: hilang dari pencarian
Kesalahan paling serius dalam robots.txt adalah secara tidak sengaja memblokir halaman penting dari crawling.
Jika Anda melarang crawling halaman produk atau layanan, misalnya, halaman tersebut dapat keluar dari indeks pencarian dan menghilang dari hasil pencarian. Hal ini langsung mengurangi traffic situs web dan dapat merusak SEO secara serius.
Setiap kali mengubah robots.txt, selalu gunakan alat pengujian robots.txt di Google Search Console untuk memastikan hanya halaman yang dimaksud yang diblokir. Setelah perubahan, terus pantau peringkat dan traffic secara berkala agar Anda dapat menangkap efek yang tidak diinginkan.
3.2 Kesalahan menggunakan Allow untuk halaman yang sebenarnya ingin diblokir
Direktif Allow sebaiknya digunakan hanya ketika Anda ingin mengizinkan sebagian lokasi yang telah diblokir dengan Disallow. Misalnya, jika ingin memblokir /private/ tetapi hanya mengizinkan /private/public.html, Anda akan menggunakan keduanya: Disallow: /private/ dan Allow: /private/public.html.
Menggunakan Allow saja untuk area yang belum diblokir tidak berpengaruh. Crawler umumnya menganggap setiap halaman dapat diakses kecuali telah diblokir secara eksplisit dengan Disallow.
3.3 Peka huruf besar-kecil: perhatikan dengan cermat
User-agent, Disallow, Allow, dan path URL semuanya peka huruf besar-kecil. Misalnya, disallow: /images/ diperlakukan berbeda dari Disallow: /images/ dan tidak akan bekerja sebagaimana dimaksud.
Saat menulis robots.txt, selalu gunakan kapitalisasi yang benar dan periksa kesalahan ketik dengan cermat.
3.4 Perbedaan perilaku crawler: menghadapi crawler berbahaya
Robots.txt bekerja pada crawler yang beritikad baik seperti Googlebot dan Bingbot, tetapi crawler berbahaya dapat mengabaikannya sepenuhnya. Artinya, robots.txt saja tidak dapat melindungi informasi sensitif.
Informasi yang benar-benar rahasia harus dilindungi dengan autentikasi sisi server atau pembatasan akses. Anda perlu memahami bahwa robots.txt hanyalah alat untuk mengontrol crawler kooperatif dan tidak cukup sebagai tindakan keamanan.
3.5 Robots.txt saja tidak dapat memberikan keamanan
Seperti disebutkan di atas, robots.txt tidak memadai sebagai tindakan keamanan. Siapa pun dapat membaca isi file robots.txt, sehingga pengguna berbahaya dapat menggunakannya sebagai petunjuk untuk menemukan area terbatas.
Keamanan nyata memerlukan pendekatan berlapis yang menggabungkan beberapa metode, termasuk perlindungan kata sandi, daftar kontrol akses, dan firewall, bukan hanya robots.txt.
3.6 Perilaku tak terduga akibat penggunaan wildcard berlebihan
Wildcard seperti * dan $ membuat pencocokan path lebih fleksibel, tetapi penggunaan berlebihan dapat memblokir halaman yang tidak pernah Anda maksudkan. Misalnya, Disallow: /*image* tidak hanya akan memblokir direktori /images/, tetapi juga URL seperti /article/my-image.jpg.
Saat menggunakan wildcard, periksa cakupan pengaruhnya secara menyeluruh dan pastikan Anda tidak memblokir halaman secara tidak sengaja.
3.7 Cache robots.txt: jeda sebelum perubahan tercermin
Mesin pencari menyimpan cache robots.txt, sehingga perubahan tidak selalu tercermin segera. Bahkan jika Anda memeriksa dengan alat pengujian tepat setelah mengeditnya, hasilnya mungkin masih berdasarkan versi sebelumnya.
Di Google Search Console, Anda dapat meminta robots.txt diambil ulang melalui tester robots.txt. Ini dapat memperpendek jeda sebelum cache diperbarui dan perubahan Anda tercermin.
Dengan mengikuti perhatian ini dan mengonfigurasi robots.txt dengan benar, Anda dapat meningkatkan SEO dan menghindari risiko yang tidak perlu.
Bab 4: Alat pembuatan robots.txt dan metode verifikasi

Bab ini menjelaskan cara membuat, menguji, dan merevisi robots.txt secara efisien. Dengan mengikuti langkah-langkah ini, Anda dapat mencegah kesalahan yang tidak disengaja dan memaksimalkan kinerja situs web.
4.1 Menggunakan alat pembuatan robots.txt
Anda dapat menulis robots.txt secara manual, tetapi alat online memungkinkan Anda melakukannya lebih cepat dan dengan lebih sedikit kesalahan. Alat ini menghasilkan file robots.txt secara otomatis setelah Anda memasukkan direktif yang diperlukan, sehingga membantu mengurangi kesalahan sintaks dan aturan.
Alat yang umum digunakan meliputi berikut ini.
- Tester robots.txt Google Search Console: Alat bawaan Search Console yang dapat membuat, mengedit, dan menguji robots.txt. Jika Anda sudah menggunakan Search Console, ini sering menjadi pilihan termudah.
- Alat pemeriksa SEO: Beberapa alat SEO menyertakan fitur pembuatan robots.txt. Karena dapat digunakan bersama fungsi SEO lain, alat ini praktis saat mengoptimalkan situs secara lebih luas.
- Generator robots.txt online lainnya: Jika Anda mencari generator robots.txt di web, Anda akan menemukan banyak alat gratis. Ini cocok untuk membuat file robots.txt sederhana.
Alat terbaik bergantung pada kebutuhan Anda dan ukuran situs web.
4.2 Menguji robots.txt di Google Search Console
Setelah membuat robots.txt, Anda harus mengujinya untuk memverifikasi bahwa crawler menafsirkannya dengan benar. Google Search Console menyediakan alat pengujian robots.txt yang dapat menunjukkan apakah URL tertentu dapat di-crawl dan apakah ada kesalahan dalam file.
Proses pengujiannya adalah sebagai berikut.
- Buka Google Search Console dan pilih properti untuk situs web target.
- Pilih tester robots.txt dari menu di sebelah kiri.
- Masukkan URL yang ingin Anda uji dan klik tombol Test.
- Tinjau apakah URL dapat di-crawl dan direktif mana yang diterapkan.
Setiap kali mengubah robots.txt, gunakan alat ini dan pastikan file berfungsi persis seperti yang dimaksudkan.
4.3 Meninjau dan memperbaiki robots.txt
Karena robots.txt ditempatkan di direktori root situs web, Anda dapat membukanya langsung di browser, meninjau isinya, dan merevisinya jika perlu. Misalnya, mengakses https://example.com/robots.txt akan menampilkan file tersebut.
Saat melakukan koreksi, buka robots.txt di editor teks, buat perubahan yang diperlukan, lalu unggah ke server. Karena mesin pencari perlu menyegarkan cache, perubahan mungkin memerlukan sedikit waktu sebelum tercermin.
Tester robots.txt di Google Search Console memungkinkan Anda mengedit dan menguji pada saat yang sama, sehingga lebih mudah mengulangi koreksi dan verifikasi.
Dengan mengikuti langkah-langkah ini, Anda dapat menjaga robots.txt dalam kondisi optimal dan meningkatkan SEO maupun kinerja situs.
Bab 5: Kontrol crawler di luar robots.txt

Perbedaan dari tag meta robots dan cara menggunakan masing-masing
Tag meta robots digunakan untuk mengontrol crawler pada masing-masing halaman. Jika digunakan bersama robots.txt, tag ini memungkinkan kontrol yang lebih terperinci. Noindex memerintahkan mesin pencari untuk tidak mengindeks halaman, dan nofollow memerintahkan mereka untuk tidak mengikuti tautan. Jika Anda menambahkan noindex pada halaman yang juga telah diblokir dari crawling dengan robots.txt, ini dapat membantu menghapus halaman yang sudah terindeks dari hasil pencarian dalam beberapa kasus.
Menggunakannya bersama noindex dan nofollow
Anda dapat menentukan beberapa direktif yang dipisahkan koma, seperti noindex,follow.
Kontrol melalui header HTTP X-Robots-Tag
Dengan menggunakan X-Robots-Tag pada header respons HTTP, Anda juga dapat mengontrol crawling untuk file non-HTML seperti PDF dan gambar. Ini memerlukan konfigurasi sisi server.
Ringkasan
Robots.txt adalah alat yang sangat penting untuk SEO maupun kinerja situs web.
Ketika Anda memahami poin-poin yang dibahas dalam artikel ini dan mengonfigurasi robots.txt dengan benar, Anda dapat mengeluarkan potensi penuh situs web Anda. Penting untuk tetap mengikuti perkembangan dan terus mengoptimalkan robots.txt dari waktu ke waktu.
Lampiran: contoh robots.txt, termasuk contoh lanjutan
- Izinkan hanya jenis file tertentu untuk crawler tertentu:
User-agent: Googlebot-Image Allow: /images/*.jpg Allow: /images/*.png Disallow: / User-agent: * Disallow: /images/
- Perlambat akses untuk crawler tertentu:
User-agent: AhrefsBot Crawl-delay: 10 User-agent: * Allow: /
Gunakan corak lanjutan ini untuk mengoptimumkan laman web anda dan membawanya ke arah kejayaan.