Domů / Blog / Články

XML sitemap a robots.txt: Správná konfigurace pro SEO

XML sitemap a robots.txt nastavení pro crawlování a indexaci. Příklady, časté chyby a blokování AI crawlerů. Robots.txt neřídí indexaci.

Jan Pospisil
8 min čtení
SEO a GEOTechnické SEOSEO
Souhrn článku
  • XML sitemap výrazně zvyšuje šanci na objevení všech stránek roboty, ale smysl má uvádět pouze atributy loc a lastmod — changefreq a priority Google ignoruje.
  • Robots.txt řídí crawlování, nikoli indexaci; pro skutečné odstranění z výsledků je potřeba noindex direktiva.
  • Blokováním AI crawlerů (GPTBot, ClaudeBot) v robots.txt zabráníte zobrazení obsahu v AI odpovědích.

XML sitemap a robots.txt jsou dva základní soubory, které komunikují s vyhledávacími roboty. Sitemap jim říká, jaké stránky na webu najdou, a robots.txt definuje, kam smějí a kam nesmějí. Správná konfigurace obou souborů je klíčová pro efektivní crawlování a indexaci.

XML Sitemap: Mapa vašeho webu

XML sitemap je soubor ve formátu XML, který obsahuje seznam URL adres na vašem webu. Slouží jako navigační pomůcka pro vyhledávací roboty — pomáhá jim objevit všechny důležité stránky, zejména ty, které nemusí být snadno přístupné přes interní odkazy.

„XML sitemap je jako seznam adres pro pošťáka – nezaručuje doručení, ale výrazně zvyšuje šanci, že se ke každé adrese dostane.” — Google Search Central

Co sitemap obsahuje

Každá URL v sitemap může mít tyto atributy:

  • <loc> — URL adresa stránky (povinné)
  • <lastmod> — datum poslední úpravy (doporučené)
  • <changefreq> — očekávaná frekvence změn (Google většinou ignoruje)
  • <priority> — relativní priorita stránky (Google většinou ignoruje)

V praxi má smysl používat pouze <loc> a <lastmod>. Atributy changefreq a priority Google oficiálně ignoruje.

Typy XML sitemap

Typ sitemapÚčelKdy použít
StandardníSeznam HTML stránekKaždý web
Obrázková (<image:image>)Obrázky a jejich metadataWeby s důležitými obrázky, galerie
Video (<video:video>)Video obsah s popisem, náhledemWeby s vlastním video obsahem
Zpravodajská (News)Články za posledních 48 hodinZpravodajské weby v Google News
Sitemap IndexSeznam odkazů na dílčí sitemapyWeby s více než 50 000 URL

Sitemap Index

Jeden soubor sitemap může obsahovat maximálně 50 000 URL a nesmí přesáhnout 50 MB. Pro větší weby se používá Sitemap Index — soubor, který odkazuje na jednotlivé dílčí sitemapy.

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.example.cz/sitemap-pages.xml</loc>
    <lastmod>2026-03-28</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.example.cz/sitemap-blog.xml</loc>
    <lastmod>2026-03-28</lastmod>
  </sitemap>
</sitemapindex>

Jak vytvořit XML sitemap

Statické weby

Pro menší statické weby můžete sitemap vytvořit ručně nebo pomocí online generátorů (XML-Sitemaps.com, Screaming Frog).

Dynamické weby a CMS

Většina CMS generuje sitemap automaticky:

  • WordPress — nativně od verze 5.5, nebo pluginy Yoast SEO, Rank Math
  • Astro, Next.js, Nuxt — dedikované balíčky (@astrojs/sitemap, next-sitemap)
  • Shopify, WooCommerce — automatická generace

Co zahrnout do sitemap

  • Všechny indexovatelné stránky (bez noindex)
  • Stránky s kanonickou URL ukazující na sebe
  • Stránky vracející HTTP 200

Co nezahrnovat

  • Stránky s noindex direktivou
  • Přesměrované URL (3xx)
  • Chybové stránky (4xx, 5xx)
  • Parametrické varianty a duplikáty
  • Stránky blokované v robots.txt

Odeslání sitemap do Search Console

Po vytvoření sitemap ji odešlete do Google Search Console:

  1. Přihlaste se do GSC a vyberte web
  2. V levém menu klikněte na Sitemaps
  3. Zadejte URL sitemap (např. /sitemap.xml)
  4. Klikněte na Odeslat

Google potvrdí přijetí a začne sitemap zpracovávat. Průběžně sledujte stav — GSC zobrazuje počet nalezených a indexovaných URL.

Robots.txt: Pravidla pro roboty

Robots.txt je textový soubor umístěný v kořenovém adresáři webu (example.cz/robots.txt), který definuje pravidla pro vyhledávací roboty. Říká jim, které části webu smí a které nesmí crawlovat.

Syntaxe robots.txt

DirektivaVýznamPříklad
User-agentSpecifikuje robotaUser-agent: Googlebot
DisallowZakáže crawlování cestyDisallow: /admin/
AllowPovolí crawlování (přepisuje Disallow)Allow: /admin/public/
SitemapOdkaz na XML sitemapSitemap: https://example.cz/sitemap.xml
Crawl-delayZpoždění mezi požadavkyCrawl-delay: 10 (Google ignoruje)
HostPreferovaná doménaPouze Yandex

Příklad robots.txt

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /search?
Disallow: /user/private/

User-agent: GPTBot
Disallow: /

Sitemap: https://www.example.cz/sitemap.xml

Důležitá pravidla

  • User-agent: * platí pro všechny roboty, pokud nemají vlastní blok
  • Cesty jsou case-sensitive/Admin/ a /admin/ jsou různé cesty
  • Robots.txt je veřejný soubor — nepoužívejte ho k skrytí citlivých dat
  • Disallow: / zakáže crawlování celého webu
  • Prázdný Disallow: povolí crawlování všeho

Crawlování vs. indexace

Jedna z nejčastějších chyb je zaměňování crawlování a indexace:

  • Robots.txt řídí crawlování — zda robot stránku navštíví
  • Meta robots / X-Robots-Tag řídí indexaci — zda se stránka objeví ve výsledcích

Pokud zablokujete stránku v robots.txt, Google ji nebude crawlovat, ale stále ji může indexovat, pokud na ni vedou externí odkazy. Stránka se pak ve výsledcích zobrazí bez popisu (s textem „Popis není dostupný kvůli robots.txt”).

Pro skutečné odstranění z indexu použijte noindex direktivu, nikoli robots.txt.

Dynamické sitemapy a monitoring

Automatická aktualizace

Sitemap by se měla aktualizovat automaticky při:

  • Publikování nového obsahu
  • Úpravě existujících stránek (aktualizace lastmod)
  • Odstranění stránek

Monitoring v praxi

  • Pravidelně kontrolujte stav sitemap v GSC
  • Porovnávejte počet URL v sitemap vs. počet indexovaných URL
  • Velký rozdíl signalizuje problémy s kvalitou obsahu nebo technickými chybami
  • Crawlněte web pomocí Screaming Frog a porovnejte výsledky se sitemap

Časté chyby a jejich řešení

  1. Sitemap obsahuje neindexovatelné URL — odstraňte noindex stránky, přesměrování a 404
  2. Robots.txt blokuje CSS/JS — Google potřebuje tyto zdroje pro renderování stránky
  3. Chybějící Sitemap direktiva — vždy přidejte cestu k sitemap do robots.txt
  4. Zastaralý lastmod — nastavte lastmod na skutečné datum poslední změny obsahu
  5. Blokování crawleru místo noindex — pro odstranění z indexu použijte noindex, ne robots.txt
  6. Sitemap na HTTP — sitemap i všechny URL v ní musí být na HTTPS

Často kladené otázky

Je XML sitemap povinná pro SEO?

Ne, XML sitemap není povinná. Google dokáže stránky objevit prostřednictvím interních a externích odkazů. Sitemap je ale silně doporučená, zejména pro nové weby, velké weby s tisíci stránkami, weby s komplexní architekturou nebo weby, kde stránky nemají dostatek interních odkazů. U malého webu s dobrou interní strukturou sitemap není kritická, ale ani neškodí.

Co se stane, když smažu robots.txt?

Pokud soubor robots.txt neexistuje, vyhledávací roboti budou crawlovat celý web bez omezení (vrátí se 404 na robots.txt, což Google interpretuje jako „žádná omezení”). To je obvykle v pořádku pro většinu webů. Problémy mohou nastat, pokud máte sekce, které nechcete crawlovat (admin, interní vyhledávání, duplicitní parametrické URL).

Jak často Google kontroluje sitemap?

Google kontroluje sitemap nepravidelně — od několikrát denně u velkých zpravodajských webů po jednou za několik týdnů u menších webů. Frekvenci ovlivňuje crawl budget, velikost webu a historická frekvence změn. Po odeslání nové nebo aktualizované sitemap v GSC Google obvykle reaguje do 24–48 hodin. Pingování sitemap přes API Google od roku 2023 nedoporučuje.

Můžu v robots.txt blokovat AI crawlery jako GPTBot?

Ano, můžete. Přidáním bloku User-agent: GPTBot a Disallow: / zablokujete crawlování vašeho webu crawlerem OpenAI. Podobně můžete blokovat ClaudeBot (Anthropic), PerplexityBot a další AI crawlery. Toto je legitimní a respektované pravidlo. Zvažte ale, zda chcete být viditelní v AI odpovědích — blokování AI crawlerů znamená, že se váš obsah neobjeví v AI přehledech.

Chcete podobné výsledky?

Pomůžu vám s online marketingem a SEO. Ozvěte se mi a probereme to.

Nezávazná konzultace

Podobné články

SEO copywriting a tvorba optimalizovaných textů

SEO copywriting: Texty pro vyhledávače i lidi

Co je SEO copywriting a jak psát texty, které se umístí ve vyhledávačích? Průvodce optimalizací obsahu, nástroji a cenami..

Přečíst →
SEO kurzy

SEO kurzy: Kde se naučit SEO v Česku

Přehled SEO kurzů v Česku.

Přečíst →
SEO on-page optimalizace

SEO on-page: Průvodce on-page optimalizací

Kompletní průvodce on-page SEO.

Přečíst →

Související pojmy

SEO expert

Jak se stát SEO expertem? Zjistěte, jaké zkušenosti a dovednosti potřebujete, čím se expert liší od specialisty a jak budovat portfolio..

SEO specialista

Kdo je SEO specialista a co obnáší jeho práce? Přehled dovedností, denních úkolů, platového ohodnocení v ČR a kariérních cest..

HTTP 500

HTTP 500 (Internal Server Error) je neočekávaná chyba serveru.

Evergreen obsah

Evergreen obsah zůstává relevantní dlouhodobě a tvoří základ SEO strategie.

← Všechny články