XML sitemap a robots.txt: Správná konfigurace pro SEO

XML sitemap a robots.txt jsou dva základní soubory, které komunikují s vyhledávacími roboty. Sitemap jim říká, jaké stránky na webu najdou, a robots.txt definuje, kam smějí a kam nesmějí. Správná konfigurace obou souborů je klíčová pro efektivní crawlování a indexaci.

XML Sitemap: Mapa vašeho webu

XML sitemap je soubor ve formátu XML, který obsahuje seznam URL adres na vašem webu. Slouží jako navigační pomůcka pro vyhledávací roboty — pomáhá jim objevit všechny důležité stránky, zejména ty, které nemusí být snadno přístupné přes interní odkazy.

„XML sitemap je jako seznam adres pro pošťáka – nezaručuje doručení, ale výrazně zvyšuje šanci, že se ke každé adrese dostane.” — Google Search Central

Co sitemap obsahuje

Každá URL v sitemap může mít tyto atributy:

<loc> — URL adresa stránky (povinné)
<lastmod> — datum poslední úpravy (doporučené)
<changefreq> — očekávaná frekvence změn (Google většinou ignoruje)
<priority> — relativní priorita stránky (Google většinou ignoruje)

V praxi má smysl používat pouze <loc> a <lastmod>. Atributy changefreq a priority Google oficiálně ignoruje.

Typy XML sitemap

Typ sitemap	Účel	Kdy použít
Standardní	Seznam HTML stránek	Každý web
Obrázková (`<image:image>`)	Obrázky a jejich metadata	Weby s důležitými obrázky, galerie
Video (`<video:video>`)	Video obsah s popisem, náhledem	Weby s vlastním video obsahem
Zpravodajská (News)	Články za posledních 48 hodin	Zpravodajské weby v Google News
Sitemap Index	Seznam odkazů na dílčí sitemapy	Weby s více než 50 000 URL

Sitemap Index

Jeden soubor sitemap může obsahovat maximálně 50 000 URL a nesmí přesáhnout 50 MB. Pro větší weby se používá Sitemap Index — soubor, který odkazuje na jednotlivé dílčí sitemapy.

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.example.cz/sitemap-pages.xml</loc>
    <lastmod>2026-03-28</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.example.cz/sitemap-blog.xml</loc>
    <lastmod>2026-03-28</lastmod>
  </sitemap>
</sitemapindex>

Jak vytvořit XML sitemap

Statické weby

Pro menší statické weby můžete sitemap vytvořit ručně nebo pomocí online generátorů (XML-Sitemaps.com, Screaming Frog).

Dynamické weby a CMS

Většina CMS generuje sitemap automaticky:

WordPress — nativně od verze 5.5, nebo pluginy Yoast SEO, Rank Math
Astro, Next.js, Nuxt — dedikované balíčky (@astrojs/sitemap, next-sitemap)
Shopify, WooCommerce — automatická generace

Co zahrnout do sitemap

Všechny indexovatelné stránky (bez noindex)
Stránky s kanonickou URL ukazující na sebe
Stránky vracející HTTP 200

Co nezahrnovat

Stránky s noindex direktivou
Přesměrované URL (3xx)
Chybové stránky (4xx, 5xx)
Parametrické varianty a duplikáty
Stránky blokované v robots.txt

Odeslání sitemap do Search Console

Po vytvoření sitemap ji odešlete do Google Search Console:

Přihlaste se do GSC a vyberte web
V levém menu klikněte na Sitemaps
Zadejte URL sitemap (např. /sitemap.xml)
Klikněte na Odeslat

Google potvrdí přijetí a začne sitemap zpracovávat. Průběžně sledujte stav — GSC zobrazuje počet nalezených a indexovaných URL.

Robots.txt: Pravidla pro roboty

Robots.txt je textový soubor umístěný v kořenovém adresáři webu (example.cz/robots.txt), který definuje pravidla pro vyhledávací roboty. Říká jim, které části webu smí a které nesmí crawlovat.

Syntaxe robots.txt

Direktiva	Význam	Příklad
User-agent	Specifikuje robota	`User-agent: Googlebot`
Disallow	Zakáže crawlování cesty	`Disallow: /admin/`
Allow	Povolí crawlování (přepisuje Disallow)	`Allow: /admin/public/`
Sitemap	Odkaz na XML sitemap	`Sitemap: https://example.cz/sitemap.xml`
Crawl-delay	Zpoždění mezi požadavky	`Crawl-delay: 10` (Google ignoruje)
Host	Preferovaná doména	Pouze Yandex

Příklad robots.txt

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /search?
Disallow: /user/private/

User-agent: GPTBot
Disallow: /

Sitemap: https://www.example.cz/sitemap.xml

Důležitá pravidla

User-agent: * platí pro všechny roboty, pokud nemají vlastní blok
Cesty jsou case-sensitive — /Admin/ a /admin/ jsou různé cesty
Robots.txt je veřejný soubor — nepoužívejte ho k skrytí citlivých dat
Disallow: / zakáže crawlování celého webu
Prázdný Disallow: povolí crawlování všeho

Crawlování vs. indexace

Jedna z nejčastějších chyb je zaměňování crawlování a indexace:

Robots.txt řídí crawlování — zda robot stránku navštíví
Meta robots / X-Robots-Tag řídí indexaci — zda se stránka objeví ve výsledcích

Pokud zablokujete stránku v robots.txt, Google ji nebude crawlovat, ale stále ji může indexovat, pokud na ni vedou externí odkazy. Stránka se pak ve výsledcích zobrazí bez popisu (s textem „Popis není dostupný kvůli robots.txt”).

Pro skutečné odstranění z indexu použijte noindex direktivu, nikoli robots.txt.

Dynamické sitemapy a monitoring

Automatická aktualizace

Sitemap by se měla aktualizovat automaticky při:

Publikování nového obsahu
Úpravě existujících stránek (aktualizace lastmod)
Odstranění stránek

Monitoring v praxi

Pravidelně kontrolujte stav sitemap v GSC
Porovnávejte počet URL v sitemap vs. počet indexovaných URL
Velký rozdíl signalizuje problémy s kvalitou obsahu nebo technickými chybami
Crawlněte web pomocí Screaming Frog a porovnejte výsledky se sitemap

Časté chyby a jejich řešení

Sitemap obsahuje neindexovatelné URL — odstraňte noindex stránky, přesměrování a 404
Robots.txt blokuje CSS/JS — Google potřebuje tyto zdroje pro renderování stránky
Chybějící Sitemap direktiva — vždy přidejte cestu k sitemap do robots.txt
Zastaralý lastmod — nastavte lastmod na skutečné datum poslední změny obsahu
Blokování crawleru místo noindex — pro odstranění z indexu použijte noindex, ne robots.txt
Sitemap na HTTP — sitemap i všechny URL v ní musí být na HTTPS

Často kladené otázky

Je XML sitemap povinná pro SEO?

Ne, XML sitemap není povinná. Google dokáže stránky objevit prostřednictvím interních a externích odkazů. Sitemap je ale silně doporučená, zejména pro nové weby, velké weby s tisíci stránkami, weby s komplexní architekturou nebo weby, kde stránky nemají dostatek interních odkazů. U malého webu s dobrou interní strukturou sitemap není kritická, ale ani neškodí.

Co se stane, když smažu robots.txt?

Pokud soubor robots.txt neexistuje, vyhledávací roboti budou crawlovat celý web bez omezení (vrátí se 404 na robots.txt, což Google interpretuje jako „žádná omezení”). To je obvykle v pořádku pro většinu webů. Problémy mohou nastat, pokud máte sekce, které nechcete crawlovat (admin, interní vyhledávání, duplicitní parametrické URL).

Jak často Google kontroluje sitemap?

Google kontroluje sitemap nepravidelně — od několikrát denně u velkých zpravodajských webů po jednou za několik týdnů u menších webů. Frekvenci ovlivňuje crawl budget, velikost webu a historická frekvence změn. Po odeslání nové nebo aktualizované sitemap v GSC Google obvykle reaguje do 24–48 hodin. Pingování sitemap přes API Google od roku 2023 nedoporučuje.

Můžu v robots.txt blokovat AI crawlery jako GPTBot?

Ano, můžete. Přidáním bloku User-agent: GPTBot a Disallow: / zablokujete crawlování vašeho webu crawlerem OpenAI. Podobně můžete blokovat ClaudeBot (Anthropic), PerplexityBot a další AI crawlery. Toto je legitimní a respektované pravidlo. Zvažte ale, zda chcete být viditelní v AI odpovědích — blokování AI crawlerů znamená, že se váš obsah neobjeví v AI přehledech.

XML sitemap a robots.txt: Správná konfigurace pro SEO

XML Sitemap: Mapa vašeho webu

Co sitemap obsahuje

Typy XML sitemap

Sitemap Index

Jak vytvořit XML sitemap

Statické weby

Dynamické weby a CMS

Co zahrnout do sitemap

Co nezahrnovat

Odeslání sitemap do Search Console

Robots.txt: Pravidla pro roboty

Syntaxe robots.txt

Příklad robots.txt

Důležitá pravidla

Crawlování vs. indexace

Dynamické sitemapy a monitoring

Automatická aktualizace

Monitoring v praxi

Časté chyby a jejich řešení

Často kladené otázky

Chcete podobné výsledky?

Jan Pospíšil

Podobné články

SEO copywriting: Texty pro vyhledávače i lidi

SEO kurzy: Kde se naučit SEO v Česku

SEO on-page: Průvodce on-page optimalizací

Související pojmy

SEO expert

SEO specialista

HTTP 500

Evergreen obsah