Robots.txt datoteka je datoteka, ki jo najdemo na večini spletnih strani, vsekakor pa na vseh dobro optimiziranih spletnih straneh. Gre za navadno besedilno (.txt) datoteko, ki je namenjena iskalnikom in njihovim robotkom, uporabniki pa je pravzaprav ne vidijo, saj na to datoteko ne kaže nobena povezava iz spletne strani. Glavna namena robots.txt datoteke sta dva, 1. da iskalnikom pove, katerih podstrani ali direktorijev naj se ne dotikajo, torej jih naj ne prikazujejo v iskalnih rezultatih in 2. da iskalnikom pove kje točno se nahaja sitemap.xml datoteka. Nahaja se vedno v osnovnem direktoriju vsake spletne strani, saj jo iskalniki na tem mestu pričakujejo in če je ni tukaj, bodo prepričani, da je enostavno ni.

Kako izgleda klasična robots.txt datoteka. Poglejmo si kar mojo. Dosegljiva je na http://www.optimizacija-strani.info/robots.txt.

Vsebuje obe informaciji, ki sem ju zgoraj navedel (seveda, saj je moja stran dobro optimizirana), pravi pa takole:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.optimizacija-strani.info/sitemap.xml.gz

Prvi del pravi, da sporoča stvari vsem robotom (ki se identificirajo preko t.i. user-agenta) in da jim sporoča, naj ne hodijo v direktorija /wp-admin in /wp-includes. To sta direktorija, ki v CMS sistemu WordPress vsebujeta datoteke, ki so nujne za delovanje spletne strani, ne vsebujejo pa informacij za uporabnike, torej ne vsebujejo nobene vsebine in ne želimo, da uporabniki vidijo te datoteke, ali da lahko do njih dostopajo preko iskalnikov.

Drugi del pa botom iskalnikov sporoča, kje točno se nahaja moja sitemap.xml datoteka, ki ima sicer še končnico .gz (kar pomeni, da je spakirana datoteka) in jih napoti tja, da lahko najdejo vse podstrani na moji spletni strani in tako poskrbi za nekoliko boljšo optimizacijo moje spletne strani.

Zdaj pa hitro preverite, ali ima vaša spletna stran te dve stvari v robots.txt datoteki!