Velký únik dokumentace k Search API od Google. Je to průser?

Už jsme si za posledních pár let zvykli, že se velkým společnostem nedaří spolehlivě ukrývat poměrně důležité informace, které by za běžných okolností měly zůstat pouze za zavřenými dveřmi vývojového týmu. Teď se něco podobného pravděpodobně stalo Googlu. Proč pravděpodobně? Tyto úniky nemusí být vždy věrohodné. Může jít o záměrně vydané a upravené lživé informace, nebo může jít o řízený únik samotným Googlem, případně se může jednat o zastaralou verzi dokumentace, která již není příliš relevantní. Skutečnou pravdu se pravděpodobně nedozvíme, ale informace z úniku mohou být důležitým vodítkem, jak Google na vyhledáváním přemýšlí, jak ho hodnotí a hlavně jak se v porovnání s informacemi vyjadřuje na venek. Pojďme si k tomu říct něco víc. Důkladně však doporučuji, abyste nebrali podobné úniky jako základ pro jakoukoliv strategii.

Jak k úniku vlastně došlo?

Z článku Randa Fishkina vyplývá, že ho 4. května kontaktovat neznámý zdroj, který mu poskytl právě uniklé dokumenty. Následně dostal nějaký čas na to, aby si je důkladně prošel. Následně 24. května došlo k videocallu, na kterém se nad jednotlivými body z uniklé dokumentace společně bavili. Zdroj zůstal samozřejmě anonymní a nikdo nezná jeho přesnou identitu. Nicméně po sérii otázek se Rand Fishkin ujistil, že jde o pravděpodobně jednoho z bývalých zaměstnanců, který byl schopen dobře popsat informace z vnitřní komunikace, o kterých věděl právě i Rand. Přesto je ale Rand stále poměrně skeptický k věrohodnosti uniklého materiálu. Unikl dokument o 2500 stranách, ve kterých je celkem 14 014 různých atributů. Dle data publikace z Githubu jde o dokument z března 2024, který nebyl aktualizován do 7. května. Nečekejte ale, že se v dokumentu dozvíte cokoliv o váze jednotlivých hodnotících faktorů, nebo které z nich se k rankingu aktuálně využívají.

Google search is one of the most secretive, closely-guarded black boxes in the world. Well, maybe not anymore.

In the last quarter century, no leak of this magnitude or detail has ever been reported from Google’s search division. If you're in #SEO, you should probably see this. pic.twitter.com/JxEs55IV21
— Rand Fishkin (follow @randderuiter on Threads) (@randfish) May 28, 2024

Google a jeho nahnutá transparentnost

Všichni, kteří se pohybují v světě SEO již nějaký ten rok a pozorně sledují, jak se Google veřejně vyjadřuje k různým otázkám v rámci SEO a snaží se vyvracet různé domněnky specialistů, ví, že už nemůžeme Googlu věřit ani nos mezi očima. Už několikrát se totiž stalo, že se výsledky výzkumů specialistů neshodují s tím, co tvrdí Google. Jde o záměrné matení nás, specialistů, abychom nemohli přesněji cílit naše strategie a procesy? Nebo sám Google má ve svých materiálech a postupech takový zmatek, že se mu tak úspěšně daří vypouštět protichůdné a matoucí informace?

Aktuálně poslední únik dokumentace Search API ukazuje, jak moc se liší tvrzení vydaná Googlem a informace, které jsou v dokumentaci popsány. Samozřejmě berte ohled na to, že samotná dokumentace nemusí být aktuální, může být záměrně “ohnutá” a v mnoha ohledech smyšlená.

Domněnky plynoucí z úniku dokumentace

Uniklý materiál uvádí hned několik zajímavých domněnek, které jsou samozřejmě pouze špičkou na vrcholu ledovce.

Google využívá data z Google Chrome, jako je historie cookies, přihlášení a detekování patternů chování pro boj proti spamu automatických a manuálních kliknutí.
Google, v rámci NavBoostu (Interní nástroj Google, který dříve sbíral data z PageRanku), sleduje prokliky a chování v rámci vyhledávání. Pokud návštěvník hledá nějaký specifický brand a následně nějaký jeho produkt nebo službu, které terminologií přímo neodpovídají, tak tuto službu nebo produkt posune ve vyhledávání výše ve vztahu s uvedeným hledaným brandem.
NavBoost Google využívá i v rámci Pandy, která se stará o vyhodnocování kvality obsahu a následný posun směrem nahoru a dolů.
Dokument obsahuje i zmínku o penalizaci za vytěžování doménových jmen bez konkrétního brandu. Například prodej-hodinek-praha.cz a tak podobně. V souvislosti s touto možností penalizace se zmiňuje nástroj “BabyPanda” a tyto signály se dále zapojují do celkového hodnocení kvality webu/e-shopu.
V minulosti, při pandemii COVID-19, Google používal whitelist (seznam povolených webů) pro weby spojené s příbuznými klíčovými slovy “covid”. Nejspíše aby nad nimi měl větší kontrolu. Stejná situace platila i pro období voleb.

Je únik legitimní? Lze mu tedy vůbec věřit?

Rand se obrátil s dotazem na autenticitu na své známé, kteří právě v Googlu pracovali. Při náhledu na uniklé dokumenty se netvářili nadšeně a víceméně se zdrželi komentáře. Pár z nich se však vyjádřilo:

“Na první pohled tento dokument vypadá legitimně. Nicméně nepracoval jsem na něm, tak to nemůžu potvrdit”
“Dokument splňuje puncovní nároky na kvalitu dokumentace a API Googlu.”
“Dokumentace je napsaná v Javě. Ten, kdo ji dělal, tak si dal opravdu práci a mnoho času aby implementoval standardy Googlu v rámci pojmenování a vedení dokumentace”
“Je to velmi podobné jiným dokumentacím, se kterými jsem přišel do styku”

Tato vyjádření bývalých zaměstnanců vypadají, že jde o legitimní dokument z dílny Google. Rand se po 40 minutovém sezení se zdrojem úniku ujistil, že tomu tak nejspíše skutečně je. Udělat rozsáhlou analýzu všech 2500 stránek je ale na dlouhé lokty. O tuto analýzu se však postaral Mike King v tomto článku

Co vás bude zajímat pravděpodobně nejvíce

Obsah

Z uniklého dokumentu vychází poměrně hodnotná informace, že délka obsahu nemá na jeho hodnocení příliš velký vliv. Respektive neexistuje ideální délka obsahu. Google hodnotí hlavně jeho originalitu. S tím zároveň sleduje posledních 20 změn. Z toho lze usoudit, že je dobré obsah opravdu často aktualizovat, pokud to samozřejmě dává smysl.

YMYL – EAT

Z dokumentů vzešlo víceméně pouze potvrzení, že YMYL dostává od Google speciální péči v rámci výpočtu skóre kvality. Nic co bychom již nevěděli.

Penalizace a snižování hodnocení

Google v dokumentaci počítá s několika konkrétními parametry v rámci snižování hodnocení či penalizace:

Demotion Nav – kategorie pro weby, na kterých mají návštěvníci problém s orientací a navigováním v rámci obsahu.
Demotion SERP – Weby, na kterých se uživatelé příliš dlouho neohřáli a vraceli se zpět na výsledky vyhledávání. Pravděpodobně souvislost metrikou dwell time.
Demotion Exact Match Domains – Domény, které se snaží přesně kopírovat cílené klíčové fráze jsou hůře hodnocené. Tomu se děje pravděpodobně už od roku 2012.
Local Degradation – globální a superglobální weby jsou znevýhodněné oproti těm lokálně cíleným. Google se snaží upřednostnit lokální výsledky vyhledávání, pokud to dává smysl.
Snížení hodnocení stránkám zaměřeným na pornoprůmysl.

Existence Sandboxu

Google pracuje se sandboxovým prostředím. Využívá ho pro testování a sledování aktuálních potenciálně spamových stránek. Sandbox je uměle vytvořené „hřiště“, kde se vše testuje a anylzuje, než to projde na oči návštěvníkům.

Sitelinky

Google využívá data z Google Chrome v souvislosti s chováním v rámci klikání na výsledky vyhledávání a následně na konkrétním webu. Pomocí těchto údajů je schopen určit nějaký ucelený seznam stránek, které v rámci Sitelinks ukáže na relevantní vyhledávací dotaz. Je pozitivní, že na to má dopad reálné chování uživatelů.

Autorita domény

V dokumentaci se našla také zajímavá informace o autoritě domén. Jak jsme si už naznačili výše, automaticky získávají nálepku “spam” domény, které se snaží přesně kopírovat klíčové fráze. Tyto domény se pak dostávají do sandboxu a Google je nadále zkoumá.

Google si interně počítá i pomyslné skóre pro domovskou stránku. Na základě tohoto skóre pak určuje výchozí hodnocení pro další podstránky dotčeného webu.

Závěrem pár slov

Není to poprvé a určitě ani naposledy, kdy k podobnému úniku došlo. V nedávné době jsme řešili únik vyhledávače ruského Yandexu. Tam nastala podobná situace, pár nějakých náznaků a hromada parametrického šumu okolo. O věrohodnosti dokumentu víme tentokrát sice o něco více, ale stále není nic nikým potvrzeno. Znovu tak důrazně doporučujeme využívat tento únik za jakýkoliv podklad pro tvorbu strategií v rámci SEO. Nicméně jsme se z dokumentu dozvěděli, že si Google protiřečí daleko více, než jsme si mysleli. Jestli pouze záměrně mlží, to se pravděpodobně nikdy s naprostou jistotou nedozvíme. Situaci budeme samozřejmě nadále sledovat.

Zdroje:

https://www.pavelungr.cz/google-unikla-google-search-api-dokumentace-co-prozrazuje/
https://ipullrank.com/google-algo-leak
https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/

Další články : SEO novinky

Začněte ještě dnes a transformujte svůj byznys pomocí efektivních SEO strategií od Webmium!

Chcete maximálně posunout Váš web výše?

Poptat SEO

Tomáš Maňhal

SEO/UX/Analytic Specialista | + příspěvky

SEO/UX/Analytic Specialista ✅ Překonávám bariéry a tvořím mosty mezi weby a jejich návštěvníky ✅