- Crawling nezaručuje indexaci — Google crawluje miliony stránek, které se rozhodne neindexovat kvůli nízké kvalitě nebo duplicitě.
- Stav „Discovered — currently not indexed“ v Search Console signalizuje, že obsah nemá dostatečnou přidanou hodnotu.
- Kombinace XML sitemapy, interního prolinkování a URL Inspection toolu výrazně urychlí indexaci nových stránek.
Indexace je proces, při kterém Google ukládá vaše stránky do svého indexu (databáze), ze které pak zobrazuje výsledky vyhledávání. Pokud stránka není indexovaná, neexistuje pro Google – a nikdo ji ve vyhledávání nenajde. Problémy s indexací jsou překvapivě časté a mohou výrazně omezit organickou návštěvnost.
Crawling vs. indexace webu
Tyto dva pojmy se často zaměňují, ale jde o odlišné procesy:
| Fáze | Co se děje | Co ji ovlivňuje |
|---|---|---|
| Crawling | Googlebot navštíví URL a stáhne obsah | Robots.txt, crawl budget, interní odkazy |
| Rendering | Google vykreslí stránku (JavaScript) | Složitost JS, server resources |
| Indexace | Google uloží stránku do indexu | Kvalita obsahu, canonical, noindex |
| Ranking | Google zařadí stránku do výsledků | SEO faktory, E-E-A-T, relevance |
Crawling nezaručuje indexaci. Google crawluje miliony stránek, které se rozhodne neindexovat – kvůli nízké kvalitě, duplicitnímu obsahu nebo nedostatečné hodnotě pro uživatele. Crawling je nutná podmínka, ale ne dostatečná.
Jak funguje Googlebot
Googlebot je crawler Googlu, který systematicky prochází web a stahuje obsah stránek. Funguje na principu:
- Objevování URL – z XML sitemapy, interních odkazů, zpětných odkazů a dříve známých URL
- Prioritizace – ne všechny URL mají stejnou prioritu crawlování
- Crawlování – stažení HTML kódu stránky
- Rendering – vykreslení stránky včetně JavaScriptu (second wave indexing)
- Indexace – uložení do indexu (nebo odmítnutí)
Crawl budget je počet stránek, které Googlebot na vašem webu crawluje za dané období. Pro malé weby (do 10 000 stránek) crawl budget typicky není problém. Pro velké weby je optimalizace crawl budgetu klíčová.
IndexNow protokol
IndexNow je protokol, který umožňuje okamžitě informovat vyhledávače o nových nebo aktualizovaných stránkách. Na rozdíl od čekání na crawl Googlebota proaktivně odesíláte URL ke zpracování.
Podporují ho: Bing, Yandex, Seznam.cz (Google zatím ne, ale sleduje vývoj).
Implementace je jednoduchá:
- Vygenerujte API klíč
- Umístěte ověřovací soubor na server
- Při každé publikaci nebo aktualizaci odešlete HTTP request s URL
Pro weby na WordPressu existují pluginy, které IndexNow automatizují (IndexNow, Yoast SEO, Rank Math).
URL Inspection Tool
URL Inspection v Google Search Console je nejdůležitější diagnostický nástroj pro řešení indexačních problémů.
Co z něj zjistíte:
- Je URL indexována? – stav indexace konkrétní stránky
- Kdy byl poslední crawl? – datum posledního navštívení Googlebotem
- Jaké problémy Google detekoval? – chyby, varování
- Jak Google stránku vidí? – vykreslená verze stránky
- Canonical URL – kterou URL Google považuje za kanonickou
Můžete také požádat o indexaci konkrétní URL – Google ji přidá do prioritní fronty crawlování. Limit je přibližně 10 požadavků denně.
Časté problémy s indexací webu
Nejběžnější důvody, proč Google stránku neindexuje:
- „Discovered – currently not indexed” – Google URL zná, ale rozhodl se ji (zatím) neindexovat. Důvod: nízká kvalita obsahu, duplicita nebo nedostatečná autorita.
- „Crawled – currently not indexed” – Google stránku crawloval, ale neindexoval. Obsah pravděpodobně nemá dostatečnou hodnotu.
- Blokováno robots.txt – robots.txt brání Googlebotu v crawlování.
- Noindex tag – meta robots noindex nebo X-Robots-Tag v HTTP hlavičce.
- Canonical na jinou URL – Google preferuje jinou URL jako kanonickou.
- Soft 404 – stránka vrací 200, ale Google ji vyhodnotí jako prázdnou/chybovou.
Noindex vs. disallow
Dva odlišné nástroje, které se často zaměňují:
Noindex (meta tag):
- Říká: „Crawluj, ale neindexuj tuto stránku”
- Umístění:
<meta name="robots" content="noindex"> - Použití: admin stránky, thank you pages, interní vyhledávání
Disallow (robots.txt):
- Říká: „Necrawluj tuto URL”
- Umístění: soubor robots.txt
- Použití: technické soubory, API endpointy, staging prostředí
Pozor: pokud stránku zablokujete v robots.txt a zároveň na ni vedou zpětné odkazy, Google ji může přesto indexovat (jen bez obsahu). Pro spolehlivé vyloučení z indexu použijte noindex tag.
XML sitemap a jak indexovat web rychleji
XML sitemap je seznam URL, které chcete mít indexované. Pomáhá Googlu objevit stránky, které by jinak mohl přehlédnout.
Pravidla pro efektivní sitemap:
- Zahrňte pouze indexovatelné URL – žádné noindex, redirect nebo 404 stránky
- Aktualizujte automaticky – sitemap by měla reflektovat aktuální stav webu
- Maximální velikost – 50 000 URL nebo 50 MB na soubor
- Odešlete do Search Console – Sitemaps → Add a new sitemap
- Přidejte lastmod – datum poslední aktualizace stránky (pouze pokud je přesné)
Pokrytí indexace monitorujte v Search Console → Pages (Index Coverage Report). Více o tom, jak Search Console využívat, najdete v článku o Google Search Console.
Základy SEO, včetně role indexace v celkovém procesu optimalizace, popisuje článek Co je SEO. Pro urychlení indexace je důležité i správné interní prolinkování, které pomáhá Googlebotu efektivněji procházet váš web. Pokud řešíte indexaci v kontextu přesunu webu, přečtěte si průvodce migrací webu bez ztráty SEO.
FAQ: Jak indexovat web v Googlu
Často kladené otázky
Jak dlouho trvá indexace nové stránky?
Od několika hodin po několik týdnů. Stránky na autoritativních doménách s dobrým interním prolinkováním jsou indexovány typicky do 24–48 hodin. Nové weby bez zpětných odkazů mohou čekat i několik týdnů. Odeslání URL přes URL Inspection v Search Console proces urychlí.
Proč Google neindexuje mé stránky?
Nejčastější důvody: nízká kvalita nebo duplicitní obsah, chybějící interní odkazy, blokování robots.txt nebo noindex tagem, nedostatečná autorita webu nebo technické problémy (pomalý server, JavaScript rendering). Zkontrolujte konkrétní URL v URL Inspection toolu pro přesnou diagnózu.
Jak vyřešit „Discovered – currently not indexed"?
Tento stav znamená, že Google URL zná, ale rozhodl se ji zatím neindexovat. Řešení: zlepšete kvalitu obsahu (přidejte hloubku, unikátní hodnotu), posílejte interní odkazy z již indexovaných stránek, zajistěte rychlé načítání a odešlete URL k indexaci přes Search Console. Pokud problém přetrvává, obsah pravděpodobně nemá dostatečnou přidanou hodnotu.
Kolik stránek může Google indexovat z mého webu?
Google nemá pevný limit na počet indexovaných stránek. Limitem je crawl budget – kapacita, kterou Google vašemu webu přidělí. Pro malé weby (do 10 000 stránek) to typicky není problém. Pro velké weby s miliony stránek je důležité optimalizovat crawl budget: odstraňte duplicity, nastavte správně canonical tagy a neúčtujte crawl budget na nepotřebné stránky.
Chcete podobné výsledky?
Pomůžu vám s online marketingem a SEO. Ozvěte se mi a probereme to.