Hvad er robots.txt?
For at finde ud af hvad robots.txt er, eller hvad den gør, skal vi snakke lidt om søgemaskiner, som fx Google. Mange kendte søgemaskiner og blandt andet Google bruger BOTS til at scanne det store internet igennem daglig. De er også kaldt ”Crawlers”.
Formålet med crawlers er, at de scanner alle de hjemmesider, som de kan finde og indeksere hjemmesidens indhold. Det kan være godt og farlig. Det gode er, at man får en højere SEO-rang på sin side. Det kan være farligt, da de kan indeksere nogle informationer, som er følsomme. Fx dine kunders oplysningerne, fakturanr. eller andet.
Når dine følsomme data er indekseret, er det svært at sige, hvad der sker derfra. Et eksempel er, at dine kunders følsomme oplysninger kan søges på Google.
Man kan forhindre crawlers med robots.txt file. Robots.txt fungerer, som et vejskilt, der fortæller crawlers, hvor der er adgang, og hvor der ikke er adgang på ens hjemmeside. Man kan sætte en række regler for Google søgemaskine, Bing, Yahoo m.m.
Wordpress sider har en standard robots.txt file, som begrænser crawlers i at kravle ind i back-end sektionen.
Eksempel på en basisk opsætning af Robots.txt mod Googlebot:
User-agent: Googlebot
Disallow: /example-subfolder/
Den første linje fortæller, at reglen gælder kun for ”Googlebot”.
Linje nr. to fortæller, hvor der er adgang forbudt, URL: ”/example-subfolder/”.
Man kan også skrive ”*” i stedet for ”Googlebot” på linje et. Det betyder, at reglen gælder nu for alle crawlers. Googlebots, Bingbots, Yahoobots osv.
Eksempel på en basisk opsætning af Robots.txt mod alle crawlers:
User-agent: *
Disallow: /example-subfolder/