- XML sitemap výrazně zvyšuje šanci na objevení všech stránek roboty, ale smysl má uvádět pouze atributy loc a lastmod — changefreq a priority Google ignoruje.
- Robots.txt řídí crawlování, nikoli indexaci; pro skutečné odstranění z výsledků je potřeba noindex direktiva.
- Blokováním AI crawlerů (GPTBot, ClaudeBot) v robots.txt zabráníte zobrazení obsahu v AI odpovědích.
XML sitemap a robots.txt jsou dva základní soubory, které komunikují s vyhledávacími roboty. Sitemap jim říká, jaké stránky na webu najdou, a robots.txt definuje, kam smějí a kam nesmějí. Správná konfigurace obou souborů je klíčová pro efektivní crawlování a indexaci.
XML Sitemap: Mapa vašeho webu
XML sitemap je soubor ve formátu XML, který obsahuje seznam URL adres na vašem webu. Slouží jako navigační pomůcka pro vyhledávací roboty — pomáhá jim objevit všechny důležité stránky, zejména ty, které nemusí být snadno přístupné přes interní odkazy.
„XML sitemap je jako seznam adres pro pošťáka – nezaručuje doručení, ale výrazně zvyšuje šanci, že se ke každé adrese dostane.” — Google Search Central
Co sitemap obsahuje
Každá URL v sitemap může mít tyto atributy:
<loc>— URL adresa stránky (povinné)<lastmod>— datum poslední úpravy (doporučené)<changefreq>— očekávaná frekvence změn (Google většinou ignoruje)<priority>— relativní priorita stránky (Google většinou ignoruje)
V praxi má smysl používat pouze <loc> a <lastmod>. Atributy changefreq a priority Google oficiálně ignoruje.
Typy XML sitemap
| Typ sitemap | Účel | Kdy použít |
|---|---|---|
| Standardní | Seznam HTML stránek | Každý web |
Obrázková (<image:image>) | Obrázky a jejich metadata | Weby s důležitými obrázky, galerie |
Video (<video:video>) | Video obsah s popisem, náhledem | Weby s vlastním video obsahem |
| Zpravodajská (News) | Články za posledních 48 hodin | Zpravodajské weby v Google News |
| Sitemap Index | Seznam odkazů na dílčí sitemapy | Weby s více než 50 000 URL |
Sitemap Index
Jeden soubor sitemap může obsahovat maximálně 50 000 URL a nesmí přesáhnout 50 MB. Pro větší weby se používá Sitemap Index — soubor, který odkazuje na jednotlivé dílčí sitemapy.
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.example.cz/sitemap-pages.xml</loc>
<lastmod>2026-03-28</lastmod>
</sitemap>
<sitemap>
<loc>https://www.example.cz/sitemap-blog.xml</loc>
<lastmod>2026-03-28</lastmod>
</sitemap>
</sitemapindex>
Jak vytvořit XML sitemap
Statické weby
Pro menší statické weby můžete sitemap vytvořit ručně nebo pomocí online generátorů (XML-Sitemaps.com, Screaming Frog).
Dynamické weby a CMS
Většina CMS generuje sitemap automaticky:
- WordPress — nativně od verze 5.5, nebo pluginy Yoast SEO, Rank Math
- Astro, Next.js, Nuxt — dedikované balíčky (@astrojs/sitemap, next-sitemap)
- Shopify, WooCommerce — automatická generace
Co zahrnout do sitemap
- Všechny indexovatelné stránky (bez noindex)
- Stránky s kanonickou URL ukazující na sebe
- Stránky vracející HTTP 200
Co nezahrnovat
- Stránky s noindex direktivou
- Přesměrované URL (3xx)
- Chybové stránky (4xx, 5xx)
- Parametrické varianty a duplikáty
- Stránky blokované v robots.txt
Odeslání sitemap do Search Console
Po vytvoření sitemap ji odešlete do Google Search Console:
- Přihlaste se do GSC a vyberte web
- V levém menu klikněte na Sitemaps
- Zadejte URL sitemap (např.
/sitemap.xml) - Klikněte na Odeslat
Google potvrdí přijetí a začne sitemap zpracovávat. Průběžně sledujte stav — GSC zobrazuje počet nalezených a indexovaných URL.
Robots.txt: Pravidla pro roboty
Robots.txt je textový soubor umístěný v kořenovém adresáři webu (example.cz/robots.txt), který definuje pravidla pro vyhledávací roboty. Říká jim, které části webu smí a které nesmí crawlovat.
Syntaxe robots.txt
| Direktiva | Význam | Příklad |
|---|---|---|
| User-agent | Specifikuje robota | User-agent: Googlebot |
| Disallow | Zakáže crawlování cesty | Disallow: /admin/ |
| Allow | Povolí crawlování (přepisuje Disallow) | Allow: /admin/public/ |
| Sitemap | Odkaz na XML sitemap | Sitemap: https://example.cz/sitemap.xml |
| Crawl-delay | Zpoždění mezi požadavky | Crawl-delay: 10 (Google ignoruje) |
| Host | Preferovaná doména | Pouze Yandex |
Příklad robots.txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /search?
Disallow: /user/private/
User-agent: GPTBot
Disallow: /
Sitemap: https://www.example.cz/sitemap.xml
Důležitá pravidla
User-agent: *platí pro všechny roboty, pokud nemají vlastní blok- Cesty jsou case-sensitive —
/Admin/a/admin/jsou různé cesty - Robots.txt je veřejný soubor — nepoužívejte ho k skrytí citlivých dat
Disallow: /zakáže crawlování celého webu- Prázdný
Disallow:povolí crawlování všeho
Crawlování vs. indexace
Jedna z nejčastějších chyb je zaměňování crawlování a indexace:
- Robots.txt řídí crawlování — zda robot stránku navštíví
- Meta robots / X-Robots-Tag řídí indexaci — zda se stránka objeví ve výsledcích
Pokud zablokujete stránku v robots.txt, Google ji nebude crawlovat, ale stále ji může indexovat, pokud na ni vedou externí odkazy. Stránka se pak ve výsledcích zobrazí bez popisu (s textem „Popis není dostupný kvůli robots.txt”).
Pro skutečné odstranění z indexu použijte noindex direktivu, nikoli robots.txt.
Dynamické sitemapy a monitoring
Automatická aktualizace
Sitemap by se měla aktualizovat automaticky při:
- Publikování nového obsahu
- Úpravě existujících stránek (aktualizace
lastmod) - Odstranění stránek
Monitoring v praxi
- Pravidelně kontrolujte stav sitemap v GSC
- Porovnávejte počet URL v sitemap vs. počet indexovaných URL
- Velký rozdíl signalizuje problémy s kvalitou obsahu nebo technickými chybami
- Crawlněte web pomocí Screaming Frog a porovnejte výsledky se sitemap
Časté chyby a jejich řešení
- Sitemap obsahuje neindexovatelné URL — odstraňte noindex stránky, přesměrování a 404
- Robots.txt blokuje CSS/JS — Google potřebuje tyto zdroje pro renderování stránky
- Chybějící Sitemap direktiva — vždy přidejte cestu k sitemap do robots.txt
- Zastaralý lastmod — nastavte lastmod na skutečné datum poslední změny obsahu
- Blokování crawleru místo noindex — pro odstranění z indexu použijte noindex, ne robots.txt
- Sitemap na HTTP — sitemap i všechny URL v ní musí být na HTTPS
Často kladené otázky
Je XML sitemap povinná pro SEO?
Ne, XML sitemap není povinná. Google dokáže stránky objevit prostřednictvím interních a externích odkazů. Sitemap je ale silně doporučená, zejména pro nové weby, velké weby s tisíci stránkami, weby s komplexní architekturou nebo weby, kde stránky nemají dostatek interních odkazů. U malého webu s dobrou interní strukturou sitemap není kritická, ale ani neškodí.
Co se stane, když smažu robots.txt?
Pokud soubor robots.txt neexistuje, vyhledávací roboti budou crawlovat celý web bez omezení (vrátí se 404 na robots.txt, což Google interpretuje jako „žádná omezení”). To je obvykle v pořádku pro většinu webů. Problémy mohou nastat, pokud máte sekce, které nechcete crawlovat (admin, interní vyhledávání, duplicitní parametrické URL).
Jak často Google kontroluje sitemap?
Google kontroluje sitemap nepravidelně — od několikrát denně u velkých zpravodajských webů po jednou za několik týdnů u menších webů. Frekvenci ovlivňuje crawl budget, velikost webu a historická frekvence změn. Po odeslání nové nebo aktualizované sitemap v GSC Google obvykle reaguje do 24–48 hodin. Pingování sitemap přes API Google od roku 2023 nedoporučuje.
Můžu v robots.txt blokovat AI crawlery jako GPTBot?
Ano, můžete. Přidáním bloku User-agent: GPTBot a Disallow: / zablokujete crawlování vašeho webu crawlerem OpenAI. Podobně můžete blokovat ClaudeBot (Anthropic), PerplexityBot a další AI crawlery. Toto je legitimní a respektované pravidlo. Zvažte ale, zda chcete být viditelní v AI odpovědích — blokování AI crawlerů znamená, že se váš obsah neobjeví v AI přehledech.
Chcete podobné výsledky?
Pomůžu vám s online marketingem a SEO. Ozvěte se mi a probereme to.