Ghid complet pentru fișierul robots.txt în WordPress

Fișierul robots.txt este primul lucru pe care îl verifică Googlebot când vizitează site-ul dvs. Este un fișier text simplu, plasat în directorul rădăcină al site-ului, care conține instrucțiuni despre ce secțiuni ale site-ului pot fi accesate de roboți.

Deși pare simplu, o configurare greșită a robots.txt poate bloca indexarea întregului site sau a unor secțiuni importante. Erorile în robots.txt sunt printre cele mai grave probleme SEO tehnice, tocmai pentru că efectele lor nu sunt imediat vizibile.

Google recomandă folosirea robots.txt pentru gestionarea eficientă a bugetului de crawlare, nu ca mecanism principal de control al indexării. Pentru a împiedica indexarea unei pagini, tag-ul meta noindex este mai eficient și mai sigur decât blocarea în robots.txt.

Acest ghid acoperă tot ce trebuie să știți despre fișierul robots.txt în WordPress, de la configurarea de bază la tehnicile avansate de optimizare a bugetului de crawlare.

Ghid complet pentru fișierul robots.txt în WordPress

WordPress generează automat un fișier robots.txt virtual dacă nu există un fișier fizic în directorul rădăcină. Acest fișier virtual implicit blochează directorul /wp-admin/ pentru toți roboții, cu excepția admin-ajax.php care este necesar pentru funcționalități AJAX.

Puteți accesa robots.txt-ul site-ului dvs. la adresa https://www.site.ro/robots.txt. Dacă nu ați creat un fișier fizic, veți vedea versiunea generată automat de WordPress, care este suficientă pentru majoritatea site-urilor simple.

Pentru site-urile cu nevoi specifice de configurare a crawling-ului, creați un fișier robots.txt fizic în directorul rădăcină. Fișierul fizic suprascrie complet versiunea generată automat de WordPress, deci trebuie să includeți și regulile de bază din versiunea WordPress implicită.

Editarea robots.txt direct în WordPress este posibilă prin pluginuri SEO precum Yoast SEO (Yoast SEO > Instrumente > Editor de fișiere) sau Rank Math (Rank Math > General Settings > Edit Robots.txt). Aceste interfețe sunt mai sigure decât editarea manuală prin FTP, deoarece includ validare de bază.

Sintaxa fișierului robots.txt

Fișierul robots.txt este organizat în grupuri de reguli, fiecare grup începând cu una sau mai multe directive User-agent. Directiva User-agent specifică pentru ce robot se aplică regulile din grupul respectiv. Asteriscul (*) înseamnă că regulile se aplică tuturor roboților.

Directiva Disallow specifică căile URL blocate pentru robotul indicat. O linie Disallow goală înseamnă că nu se blochează nimic, permițând accesul la tot site-ul. Directiva Allow, suportată de Google, permite explicit accesul la o cale chiar dacă un Disallow mai general ar bloca-o.

Directiva Crawl-delay specifică numărul de secunde dintre cererile consecutive ale robotului. Google nu respectă această directivă, dar Bing o respectă. Dacă serverul dvs. are probleme de performanță din cauza crawling-ului, setați Crawl-delay pentru Bingbot: User-agent: Bingbot, Crawl-delay: 10.

Ce să blocați în robots.txt

Blocați directoarele administrative și de sistem care nu trebuie indexate: /wp-admin/ (cu excepția admin-ajax.php), /wp-includes/, /wp-content/plugins/ și /wp-content/themes/. Aceste directoare conțin fișiere de sistem care nu au valoare pentru utilizatorii din căutări organice.

Blocați paginile de utilitate fără valoare SEO: paginile de căutare internă (?s=), paginile de feed RSS dacă nu le doriți indexate, paginile de login (/wp-login.php) și paginile de resetare parolă. Indexarea acestor pagini consumă buget de crawlare fără beneficii.

Pentru magazine WooCommerce, blocați URL-urile generate de filtrele de produse care creează probleme de conținut duplicat. Parametrii URL de tipul ?min_price=, ?max_price=, ?orderby= și ?product_cat= generează variante practic infinite ale paginilor de categorie.

Ce să NU blocați în robots.txt

Nu blocați resursele necesare pentru randarea paginilor: fișierele CSS și JavaScript din /wp-content/, imaginile și fonturile. Google randează paginile pentru a evalua experiența utilizatorului, iar blocarea resurselor de randare poate afecta negativ evaluarea și indexarea paginilor.

Nu blocați paginile pe care doriți să le indexați. Aceasta pare evident, dar blocarea accidentală a unor pagini importante este o eroare frecventă. Verificați întotdeauna că regulile Disallow nu afectează conținut valoros.

Configurarea robots.txt pentru WordPress cu Yoast SEO

Yoast SEO oferă o interfață vizuală pentru editarea robots.txt direct din panoul de administrare WordPress. Accesați Yoast SEO > Instrumente > Editor fișiere și veți vedea conținutul actual al fișierului robots.txt cu opțiunea de editare.

Yoast SEO adaugă automat și linia Sitemap în robots.txt, declarând URL-ul sitemap-ului generat de plugin. Această linie ajută motoarele de căutare să găsească și să proceseze sitemap-ul XML al site-ului dvs.

Nu ștergeți linia Sitemap adăugată de Yoast atunci când editați fișierul. Dacă migrați la un alt plugin SEO, asigurați-vă că noul plugin adaugă propria linie Sitemap sau adăugați-o manual în fișierul robots.txt.

Testarea robots.txt cu Google Search Console

Google Search Console include un instrument de testare a robots.txt în secțiunea Vechiul Search Console (Classic). Puteți introduce orice URL de pe site-ul dvs. și verifica dacă regulile din robots.txt permit sau blochează accesul Googlebot.

Alternativ, folosiți instrumentul online de testare robots.txt de pe site-ul Google sau extensii de browser dedicate. Testați URLs-urile importante ale site-ului dvs. după orice modificare a robots.txt pentru a confirma că nu ați blocat accidental pagini valoroase.

Robots.txt și bugetul de crawlare

Bugetul de crawlare este mai important pentru site-urile mari. Dacă site-ul dvs. are mii de pagini, optimizarea robots.txt pentru a direcționa Googlebot spre conținut valoros devine esențială.

Blocați în robots.txt toate paginile pe care le-ați marcat cu noindex prin alte metode (meta robots sau header HTTP X-Robots-Tag). Paginile noindex pot fi totuși crawlate de Google, consumând buget de crawlare fără a genera beneficii SEO.

Robots.txt versus meta noindex: când să folosești ce

Aceasta este una dintre cele mai frecvente confuzii în SEO tehnic. Robots.txt blochează accesul robotului la pagina respectivă, ceea ce înseamnă că Google nu poate vedea conținutul paginii, inclusiv tag-ul noindex dacă există.

Meta noindex permite crawlarea paginii, dar instruiește Google să nu o indexeze. Google poate procesa tag-ul noindex și poate înlătura pagina din index, chiar dacă a descoperit-o prin link-uri externe.

Regula practică este: folosiți robots.txt pentru a gestiona bugetul de crawlare și a împiedica accesul la zone administrative. Folosiți meta noindex pentru a controla ce pagini apar în rezultatele de căutare. Nu combinați robots.txt Disallow cu meta noindex pe aceeași pagină.

Greșeli frecvente în configurarea robots.txt

Blocarea întregului site este cea mai gravă eroare posibilă în robots.txt. Aceasta se poate întâmpla accidental dacă adăugați o regulă Disallow: / pentru User-agent: *. Verificați întotdeauna fișierul robots.txt după modificări majore sau după migrări de site.

O altă greșeală frecventă este blocarea fișierelor CSS și JavaScript necesare pentru randarea paginilor. Google Webmaster Tools avertizează când detectează blocarea resurselor de randare în robots.txt. Asigurați-vă că tot codul front-end al site-ului este accesibil Googlebot.

Robots.txt după migrarea la HTTPS

Actualizați robots.txt după migrarea de la HTTP la HTTPS pentru a reflecta protocolo nou. Dacă fișierul robots.txt conținea URL-uri HTTP explicit în directivele Allow sau Sitemap, actualizați-le la HTTPS. Verificați că fișierul este accesibil prin HTTPS și că nu există probleme de redirecționare pentru robots.txt.

Declarația Sitemap din robots.txt trebuie să folosească URL-ul HTTPS al sitemap-ului. O declarație cu URL HTTP va funcționa prin redirecționare, dar este mai eficient să folosiți URL-ul HTTPS direct.

Robots.txt și securitatea site-ului

Robots.txt este un fișier public accesibil oricui, inclusiv potențialilor atacatori. Nu folosiți robots.txt pentru a „ascunde” pagini cu conținut sensibil. Dacă blocați calea /pagina-secreta/ în robots.txt, oricine poate citi robots.txt și afla că acea pagină există.

Securitatea autentică a paginilor sensibile se realizează prin autentificare, nu prin robots.txt. Robots.txt gestionează crawling-ul roboților legitimi, nu blochează accesul neautorizat al utilizatorilor sau al roboților malițioși care ignoră în mod deliberat instrucțiunile din fișier.

Roboții de indexare legitimi (Googlebot, Bingbot) respectă instrucțiunile din robots.txt. Roboții de scraping sau cei malițioși pot ignora complet fișierul. Nu vă bazați pe robots.txt ca mecanism de securitate pentru date confidențiale.

Instrumente pentru verificarea robots.txt

Pe lângă instrumentele Google, există soluții independente pentru testarea robots.txt. Robotstxt.com sau extensii de browser dedicate permit verificarea rapidă a regulilor fără a accesa Google Search Console. Acestea sunt utile când gestionați mai multe site-uri simultan.

Verificarea periodică a robots.txt trebuie inclusă în rutina de audit SEO tehnic. Un fișier robots.txt modificat accidental de o actualizare de plugin sau temă poate cauza probleme grave de indexare care durează săptămâni să fie rezolvate.

Ghid complet pentru fișierul robots.txt în WordPress

Sintaxa fișierului robots.txt

Ce să blocați în robots.txt

Ce să NU blocați în robots.txt

Configurarea robots.txt pentru WordPress cu Yoast SEO

Testarea robots.txt cu Google Search Console

Robots.txt și bugetul de crawlare

Robots.txt versus meta noindex: când să folosești ce

Greșeli frecvente în configurarea robots.txt

Robots.txt după migrarea la HTTPS

Robots.txt și securitatea site-ului

Instrumente pentru verificarea robots.txt

Share This

Articole recomandate