Praleisti navigaciją
Techninis SEO

Robots.txt klaidos, kurios gali kainuoti tūkstančius eurų

· 6 min skaitymo
Robots.txt klaidos, kurios gali kainuoti tūkstančius eurų — robots.txt, crawling, techninis SEO | SABIS SEO paslaugos

Įmonė per metus investavo apie 12 tūkst. eurų į naujus produktų aprašymus, nuorodų pirkimą per išorinio SEO kampanijas ir „Core Web Vitals” rodiklių gerinimą. Penktadienio rytą Search Console parodė kraštą: organinis srautas per tris savaites nukrito 41 proc., o keturių naujų kategorijų puslapiai apskritai nepateko į indeksą. Priežastis pasirodė esanti penkių eilučių failas, kurį programuotojas po migracijos pamiršo grąžinti į produkcijos versiją.

Tai ne išskirtinis atvejis. Robots.txt failas, sukurtas 1994 m. kaip neformalus standartas (REP, oficialiai patvirtintas tik 2022 m. rugsėjį kaip RFC 9309), iki šiol valdo, kuriuos puslapius Google, Bing ar AI naršytuvai (GPTBot, ClaudeBot, Google-Extended) gali skenuoti. Klaidos čia kainuoja brangiausiai, nes jas dažnai pastebime tik tada, kai pajamų grafikas jau krenta.

WordPress klasika: kai apsauga užblokuoja patį save

Nuo 2008 m. plinta patarimas: blokuokite /wp-admin/, kad „nepatektų į Google”. Logika atrodo natūrali. Bėda ta, kad WordPress nuo 3.6 versijos (2013 m.) AJAX užklausoms naudoja admin-ajax.php failą, kuris fiziškai sėdi tame pačiame /wp-admin/ kataloge. Tema, naudojanti dinamišką krepšelio atnaujinimą, „lazy-load” galerijas ar filtruojamus produktų sąrašus, be šio failo Googlebotui atrodo sulūžusi.

Antra dažna klaida susijusi su medija. Taisyklė Disallow: /wp-content/ blokuoja ir /wp-content/uploads/. Visi paveikslėliai, PDF katalogai, instrukcijos. „Google Images” praktiškai dingsta, o e. parduotuvėms tai juntama tiesiogiai: maždaug 12-18 proc. produktų paieškų Lietuvoje vyksta per vaizdų skiltį (Search Console „Search appearance” duomenys, pavyzdys iš SABIS prižiūrimos kategorijos).

Saugi WordPress robots.txt struktūra

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/
Sitemap: https://jususvetaine.lt/sitemap.xml

Allow eilutė turi būti po Disallow, kad Googlebot teisingai pritaikytų konkretesnę taisyklę (specifiškumas nugali apibendrinimą – tai RFC 9309 paragrafe 2.2). Vidinę paiešką blokuoti naudinga, nes ji generuoja begalybę tuščio turinio kombinacijų, kurios eikvoja „crawl budget” ir nieko nereitinguoja.

Disallow ar noindex: skirtumas, kainuojantis pozicijas

Į SEO audito ataskaitas šis klaidos tipas patenka maždaug kas trečioje svetainėje. Įsitikinimas paprastas ir klaidingas: blokuojam per robots.txt, vadinasi, puslapis dings iš paieškos.

Realybė kitokia. Robots.txt valdo skenavimą (crawling), o ne indeksavimą. Jei puslapis jau indekse, o jūs jį užblokuojate per robots.txt, Googlebot nebegali jo aplankyti ir pamatyti noindex meta žymos. Puslapis lieka SERP’e, tik vietoj aprašymo rodoma žinutė: „A description for this result is not available because of this site’s robots.txt.” Atrodo nekokybiškai, paspaudimų rodiklis krenta.

Teisinga seka norint pašalinti puslapį iš indekso:

  1. Įsitikinkite, kad robots.txt neblokuoja šio puslapio.
  2. Į puslapio HTML head įdėkite <meta name="robots" content="noindex"> arba grąžinkite HTTP antraštę X-Robots-Tag: noindex.
  3. Per Search Console „URL Inspection” paprašykite reindeksavimo. Google paprastai aplanko per 1-7 dienas.
  4. Tik kai puslapis dingsta iš indekso, galite (jei to norite) pridėti Disallow taisyklę į robots.txt.

Staging blokada, palikta produkcijoje

Kūrimo metu programuotojai staging svetainę uždaro paprastai:

User-agent: *
Disallow: /

Migracija į produkciją vyksta naktį, deploy’as nukopijuoja viską „kaip yra”, robots.txt failas pamirštamas. Per kelias paras Google pamažu numeta puslapius iš indekso. Atkūrimas, kai svetainė dėl rinkodaros įveiklinta keliems tūkstančiams URL, užtrunka 2-6 savaites priklausomai nuo domeno autoriteto.

Garsiausias viešas pavyzdys: 2016 m. „Bing” du mėnesius rodė tik tris British Airways puslapius, nes jų staging robots.txt nukeliavo į gyvą domeną. Lietuvoje panašių incidentų neviešina, bet SABIS auditų praktikoje tokių „uždarytų gyvai” svetainių per metus pasitaiko 3-5.

Kaip apsisaugoti

  • Staging aplinką uždarykite per HTTP Basic Auth (slaptažodis), o ne per robots.txt. Tada perkėlus į produkciją failas savaime tampa nebereikalingas.
  • Pridėkite robots.txt patikrą į migracijos „launch checklist”. Pora minučių, sutaupančių mėnesius.
  • Naudokite stebėjimo įrankius: Screaming Frog kasdieninis crawl arba ContentKing, kurie iš karto praneša apie pasikeitusią robots.txt eilutę.
  • Search Console konfigūruokite el. pašto pranešimus apie kritinį indeksavimo kritimą.

Crawl-delay ir crawl budget: kas iš tikrųjų veikia

Crawl-delay direktyvą supranta Bing, Yandex ir Seznam. Googlebot jos ignoruoja nuo 2019 m. liepos 1 d., kai Google viešai patvirtino, kad „crawl-delay” niekada nebuvo oficialios specifikacijos dalis. Bandymas per ją mažinti serverio apkrovą Google atžvilgiu neturi prasmės.

Crawl budget realiai svarbus svetainėms nuo maždaug 10 000 URL ribos. Technine prasme jis valdomas keturiomis svertomis:

  1. Server response time (TTFB). Google rekomenduoja žemiau 200 ms. Greitesnis serveris = daugiau aplankymų per tą patį laiko langą.
  2. Parametrų blokavimas robots.txt. Faceted navigation filtrai (?color=, ?sort=, ?page=) sukuria milijonus URL variantų. Sąžiningas Disallow taupo crawl budget’ą produktams.
  3. Sitemap.xml su accurate <lastmod>. Google tikrina lastmod ir aplanko tik tai, kas pasikeitė nuo paskutinio crawl’o.
  4. Vidinių 404 ir 301 grandinių valymas. Kiekvienas mirusi nuoroda eikvoja crawl resursą, nedavusi indeksavimo naudos.

AI naršytojai 2026: nauja robots.txt eilutė

Per 2023-2024 m. paplito atskiri user-agent’ai dirbtinio intelekto modeliams. Google-Extended (atskirtas 2023-09-28) valdo Gemini ir Vertex AI prieigą – Googlebot rezultatų nepaveikia. OpenAI naudoja GPTBot (2023-08-07) treniravimui ir OAI-SearchBot atskirai paieškai. Anthropic’as turi ClaudeBot ir Claude-User. Perplexity – PerplexityBot.

Naujienų portalams, kurie norėtų neleisti savo turinio AI treniruoti, tipiška robots.txt eilutė atrodo taip:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

Svarbu: tai neblokuoja Googlebot’o (paieškos), neblokuoja Bingbot’o. Reitingai paieškoje nenukenčia. Verslo sprendimas priklauso nuo to, ar AI atsakymai su jūsų turiniu duoda srauto (per AI Overviews ir Perplexity citatas), ar jį atima.

Kaip patikrinti savo robots.txt failą

Senasis Google robots.txt Tester (buvęs senojoje Search Console versijoje) pasiekiamumas nutrūko 2023 m. gruodį. Šiandien tikrinimui naudojama:

  • Search Console „URL Inspection”. Įveskite svarbiausių puslapių (kategorijų, top produktų, kontaktų) adresus. Skiltyje „Crawl” matysite, ar robots.txt nesutrukdo prieigai.
  • Search Console „Indexing > Pages”. Ieškokite statuso „Indexed, though blocked by robots.txt”. Tai signalas, kad turite valyti.
  • Screaming Frog su „Respect robots.txt” parinktimi. Skenas parodys, kiek URL įrankis negalėjo pasiekti dėl jūsų direktyvų.
  • Serverio log’ų analizė. Įrankiai kaip Screaming Frog Log File Analyser arba JetOctopus parodo, kur Googlebot praleidžia daugiausiai laiko. Jei jis sukasi tarp paieškos rezultatų ar techninių URL, blokuokite juos robots.txt’e.

Penkios eilutės, kurios apsaugo svetainę

Apibendrinant praktinę naudą, kurios verta laikytis nuo rytojaus:

  1. Atidarykite naršyklėje jususvetaine.lt/robots.txt. Jei matote vienišą Disallow: /, sustabdykite viską ir ištaisykite per artimiausias 30 minučių.
  2. Įsitikinkite, kad nėra Disallow: /wp-content/ arba Disallow: /wp-content/uploads/. Šios eilutės draudžia Google matyti jūsų vaizdus.
  3. Patikrinkite, kad būtinai yra Allow: /wp-admin/admin-ajax.php, jei tema naudoja AJAX.
  4. Pridėkite sitemap nuorodą failo gale: Sitemap: https://jususvetaine.lt/sitemap.xml.
  5. Search Console „Indexing > Pages” peržiūrėkite statusą „Indexed, though blocked by robots.txt”. Sąrašas turi būti tuščias arba sąmoningai paliktas.

Robots.txt yra strateginis dokumentas, ne tik techninė formalybė. Kelios neteisingos eilutės gali sustabdyti viso SEO darbo rezultatus. Apgynus jį tinkamai, visa kita rinkodaros mašinerija pradeda dirbti taip, kaip ir buvo numatyta.

Pasiruošę augti?

Pradėkime nuo nemokamos konsultacijos ir išsiaiškinkim, ką galime pagerinti.

Nemokama konsultacija
Skambinti Nemokama konsultacija