Šta je Robots.txt i uticaj na SEO

Robots.txt i njegov uticaj na SEO

Saznaj šta je robots.txt, kako se koristi za kontrolu pristupa pretraživačkih robota (crawlera) određenim dijelovima web-sajta i koji je njegov utjecaj na SEO.

Autor:

Mirsad Beširević

Datum:

6 Novembra, 2024

Podjelite:

Šta je robots.txt?

Robots.txt je jednostavni tekstualni dokument koji se koristi za kontrolu pristupa pretraživačkih robota (crawlera) određenim dijelovima web-sajta. Ovaj fajl se nalazi u glavnom direktoriju web-sajta (npr. www.tvojwebsajt.com/robots.txt) i služi kao smjernica za pretraživače, obavještavajući ih koje stranice ili datoteke treba, odnosno ne treba da indeksiraju.

Google crawler neće provjeravati ukoliko se robots.txt nalazi u poddirektoriju, npr: www.tvojwebsajt.com/folder/robots.txt

Kako robots.txt funkcioniše?

Kada pretraživač poput Googlebot-a dođe na tvoj web-sajt, prvo provjerava fajl robots.txt kako bi razumio šta mu je dozvoljeno da pretraži i indeksira. Robots.txt koristi posebne direktive, kao što su User-agent, Allow i Disallow, za upravljanje ovim pristupom.

Primjer robots.txt fajla:

User-agent: *

Disallow: /privatna-sekcija/

Allow: /javna-sekcija/

Ove direktive daju jasne instrukcije crawlerima, a one definišu:

User-agent: Definiše koji pretraživački bot će poštovati pravila (simbol * znači da važi za sve botove).

Disallow: Ova direktiva govori pretraživačima koje stranice ili fajlove ne smiju da pretraže i indeksiraju.

Allow: Specifične stranice koje su dozvoljene za indeksiranje, čak i unutar zabranjenih direktorija.

Uticaj robots.txt na SEO

Robots.txt može imati veliki pozitivan ili negativan uticaj na SEO, u zavisnosti od toga kako je konfigurisan. Evo ključnih načina na koje robots.txt utiče na SEO:

1. Kontrola pristupa pretraživačima: Robots.txt ti omogućava da blokiraš indeksiranje stranica koje nisu relevantne za SEO, poput stranica sa ličnim podacima, administratorskih panela ili duplog sadržaja. To pomaže pretraživačima da se fokusiraju na najvažnije stranice i tako optimizuju resurse koji se koriste za crawling sajta.

2. Izbjegavanje duplog sadržaja: Ako tvoj sajt ima više verzija iste stranice (npr. sajt s parametrima u URL-ovima), robots.txt može spriječiti da dupli sadržaj bude indeksiran, što je važno kako bi se izbjegle SEO kazne zbog dupliciranja sadržaja.

3. Crawling budžet: Svaki sajt ima ograničen “crawling budžet” – broj stranica koje pretraživač može indeksirati u određenom vremenskom periodu. Ako blokiraš nepotrebne stranice u robots.txt, možeš optimizirati crawling budžet i omogućiti pretraživačima da se fokusiraju na važne stranice, poboljšavajući tako rangiranje na pretraživačima.

4. Prevencija slučajnog blokiranja važnih stranica: Greške u robots.txt datoteci mogu dovesti do ozbiljnih problema. Na primjer, ako greškom blokiraš ključne stranice ili direktorije, pretraživači ih neće indeksirati, što može ozbiljno naštetiti vidljivosti tvog sajta u pretragama.

Robots.txt i uticaj na SEO

Primjeri greške kod Robots.txt

User-agent: *

Disallow: /

Primjer greške koji sam prikazao je direktiva koja blokira cijeli sajt od indeksiranja, što može rezultirati potpunim nestankom iz rezultata pretrage.

Ograničavanje resursa (slike, CSS, JavaScript): Robots.txt može se koristiti za blokiranje određenih resursa, kao što su slike, CSS ili JavaScript fajlovi. Međutim, blokiranje ovih resursa može negativno uticati na SEO ako spriječi pretraživače da pravilno razumiju kako sajt funkcioniše i kako izgleda za korisnike. Savjetujemo konsultaciju sa SEO ekspertima prije nego se odlučiš na ovaj korak. Kontaktiraj nas!

Par savjeta i primjera iz prakse za Robots.txt

  • Blokiraj samo ono što je neophodno: Preporučljivo je blokirati samo stranice ili resurse koji zaista ne treba da budu vidljivi na pretraživačima (npr. stranice sa internim podacima ili stranice za prijavu).
  • Redovno provjeravaj robots.txt fajl: Promjene na sajtu mogu promijeniti način na koji robots.txt funkcionira, pa je važno redovno provjeravati jesu li stranice koje trebaju biti indeksirane dostupne pretraživačima.
  • Koristi Google Search Console za provjeru: Alati poput Google Search Console mogu pomoći da testiraš robots.txt datoteku i vidiš prate li pretraživači pravilno upute.
  • Ne oslanjaj se isključivo na robots.txt za osiguranje podataka: Iako robots.txt može blokirati stranice od pretraživača, ne štiti te stranice od direktnog pristupa putem linka. Za osjetljive stranice koristi druge metode zaštite poput lozinki ili noindex meta taga.

Primjer 1: Blokiranje pristupa nevažnim dijelovima sajta

Ako imaš sekcije sajta koje ne želiš da se indeksiraju, možeš ih blokirati.

User-agent: *

Disallow: /admin/

Disallow: /privatno/

User-agent: * važi za sve pretraživače odnosno tražilice.

Disallow: Blokira pristup sadržaju u mapama poput /admin/ i /privatno/.

Primjer 2: Dozvoljavanje specifičnih fajlova u blokiranom direktorijumu

Možeš blokirati cijeli direktorijum, ali dozvoliti pretraživačima pristup specifičnim fajlovima.

User-agent: *

Disallow: /sadrzaj/

Allow: /sadrzaj/blog-info.html

Ovako postavljen robots.txt blokira sav sadržaj u mapi /sadrzaj/, osim stranice /blog-info.html.

Primjer 3: Sprečavanje indeksiranja skripti i CSS fajlova

Ako ne želiš da pretraživači indeksiraju tvoje CSS i JavaScript fajlove u robots.txt kopiraj

User-agent: *

Disallow: /*.css$

Disallow: /*.js$

Ovako blokiramo sve fajlove sa ekstenzijom .css i .js na cijelom web sajtu

Primjer 4: Omogućavanje robotima pristup svemu

Ako želiš da pretraživači mogu indeksirati sve delove sajta, koristi:

User-agent: *

Disallow:

Ovim pretraživačima dozvoljavaš pristup cjelokupnom sadržaju web sajta.

Ovdje smo pokušali približiti osnovne informacije o važnosti robots.txt datoteke i kako se pomoću nje može upravljati pristupom crawlerima određenim dijelovima web sajta i njihovoj vidljivosti u rezultatima pretraga na Google-u i drugim tražilicama. Ukoliko želite naučiti više o ovoj temi, možete pronaći na Google-ovom linku za developere.

Kontaktirajte nas

Ostali blogovi: