Maciej Janas

Audyt SEO w 10 minut

Jak być może wiecie, na co dzień głównie zajmuję się udzielaniem porad SEO w sekcji Q&A („pytania i odpowiedzi”) serwisu SEOmoz.org. Jedną z najtrudniejszych rzeczy w tej pracy jest konieczność ogarnięcia często skomplikowanych problemów w bardzo krótkim czasie. Musimy udzielać odpowiedzi na pytania typu „dlaczego moja strona nie jest widoczna w Google” nie mając dostępu do wewnętrznych danych serwisu, kodu po stronie serwera itd., a na odpowiedź możemy poświęcić ok. 10-15 minut.


Oczywiście jestem jak najdalszy od sugestii byś próbował rozwiązywać swoje problemy SEO w 10 minut. Uznałem po prostu, że warto napisać o tym, jak wiele można zrobić w realiach tak drastycznych ograniczeń czasowych. Poniżej przedstawiam zatem instrukcję krok-po-kroku, jak w ok. 10 minut rozwiązać popularny problem pozycjonerski – odszukanie „zagubionej” podstrony. Instrukcji tej możesz użyć także do rozwiązywania innych, podobnych problemów, np.:

  • dlaczego ta podstrona nie jest zaindeksowana?
  • dlaczego tej podstrony nie ma w SERP-ach?
  • czy ta podstrona została poddana karze?
  • czy moja witryna ma jakieś kłopoty z duplicate content?

Każdej z tytułowych 10 minut przydzielam kolejne etapy procesu. Symbol tarczy zegara przy każdym etapie pokazuje przewidywany czas potrzebny do tego realizacji.

0:00-0:30 = Sprawdź, czy witryna jest zaindeksowana

Zawsze zaczynaj od początku – czy twoja strona rzeczywiście jest „zagubiona”? Operator site: nie jest doskonały, ale nie znajdziesz lepszego narzędzia do sprawdzenia tego. Świetnie nadaje się do głębokich nurkowań w strukturę strony, ponieważ możesz uzupełnić go o słowo kluczowe (występujące na badanej podstronie), a także inne operatory, takie jak intitle: czy inurl:. Najczęściej jednak wystarczy posłużyć się wyjściową składnią w postaci:

Realizując ten konkretny etap, zawsze pytaj o domenę „w roocie”. Przy okazji zorientujesz się jakie podstrony czy subdomeny twojego serwisu zostały zaindeksowane (być może błędnie), a te informacje mogą przydać się później. Oczywiście na tym etapie interesuje cię tylko jedno: czy Google wie o istnieniu twojej witryny.

0:30-1:00 = Sprawdź, czy podstrona rzeczywiście nie jest zaindeksowana

Zakładamy, że Google wie już o istnieniu twojej witryny; teraz czas na sprawdzenie, czy wie o istnieniu konkretnej podstrony. Zapytaj o nią przy użyciu operatora „site:” w połączeniu ze ścieżką do tej podstrony; możesz też zastosować kombinację operatorów „site:” i „inurl:”

Jeśli w wynikach nie widzisz badanej podstrony, zadaj ogólniejsze pytanie i poszukaj podstron z folderu, w którym powinna się ona znajdować. Zorientujesz się, czy zaindeksowane są chociaż inne podstrony z tego samego poziomu struktury. Jeśli podstrona w ogóle nie została zaindeksowana, możesz opuścić następny etap.

1:00-1:30 = Potwierdź, że podstrony nie ma w rankingu

Jeśli badana podstrona okazała się zaindeksowana, ale nie możesz znaleźć jej w SERP-ach, weź fragment jej metatagu [title] i wpisz go w Google (w dopasowaniu ścisłym, czyli w cudzysłowie). Jeśli nadal nie widzisz podstrony, zapytaj o site:twojastrona.pl fragment_[title]_lub_jego_całość. Jeśli twoja strona jest zaindeksowana, ale nieobecna w rankingu, możesz prawdopodobnie przeskoczyć od razu do minuty 4:00.

1:30-2:00 = Sprawdź Robots.txt

Przyjmijmy teraz robocze założenie, że twoja witryna jest zaindeksowana częściowo, ale badanej podstrony akurat w indeksie nie ma. Chociaż błędy w plikach robots.txt są na szczęście zjawiskiem coraz rzadszym, wciąż warto poświęcić chwilę na sprawdzenie, czy nie ustanawia on blokady botów. Plik łatwo znaleźć, najczęściej pod adresem:

Plik robots.txt wygląda mniej więcej tak:

Plik ten może zawierać regułę blokującą wszystkie boty lub tylko Googlebota. Blokada może dotyczyć konkretnego katalogu lub podstrony – szukaj uważnie.

2:00-2:30 = Poszukaj META Noindex

Dostępu robotom do podstrony można przypadkowo zabronić także na poziomie sekcji meta dokumentu HTML, za pomocą atrybutu Noindex. W nagłówku dokumentu HTML (czyli między <head> i </head>) poszukaj czegoś takiego:

Pozornie trudno przypuszczać, by administrator przypadkiem zablokował indeksowanie podstrony, którą wyraźnie chciałby w indeksie widzieć. Do takich sytuacji (a także do ustawienia Rel=Canonical, o czym poniżej) dosyć łatwo można jednak doprowadzić źle konfigurując CMS.

2:30-3:00 = Sprawdź błędne Rel=Canonical

To jest nieco trudniejsze. Tag rel=canonical jest sam w sobie rzeczą często użyteczną, bo pomaga w walce z duplicate content. Tag ten wygląda następująco:

Problem pojawia się wtedy, gdy błędnie go używasz. Weźmy dla przykładu sytuację, w której każda podstrona twojego serwisu zawiera rel=canonical z URL-em „www.twojastrona.pl” – Google potraktuje to jak instrukcję, by potraktować wszystkie podstrony twojego serwisu jako kopie strony głównej.

Jakim cudem miałbyś zrobić coś tak głupiego? Pewnie nie zrobiłeś tego celowo, ale dość łatwo doprowadzić do takich ustawień błędnie konfigurując CMS lub jakąś jego wtyczkę. Błąd nie zawsze dotyczy wszystkich podstron serwisu, czasem pojedynczych stron, które w ten sposób niepostrzeżenie znikają z indeksu. Ten problem wydaje się być coraz częstszy.

3:00-4:00 = Sprawdź poprawność nagłówka i przekierowań

Może się czasem zdarzyć, że podstrona zwraca kod błędu (np. 404), albo zawiera źle skonfigurowane przekierowanie (typu 301 lub 302), co zapobiega jej indeksacji. Żeby to sprawdzić, potrzebujesz narzędzia do sprawdzania nagłówków – w internecie jest wiele darmowych narzędzi tego typu (spróbuj HTTP Web-Sniffer). Jeśli serwer zwróci dla badanej podstrony kod odpowiedzi „200 OK”, wszystko jest w porządku. Jeśli jednak zwróci błąd 404, dowolny inny kod błędu (4xx lub 5xx) lub nastąpi przekierowanie, masz problem. Jeśli następuje przekierowanie (301 lub 302), „zagubiona” odsyła do innej podstrony. Wychodzi więc, że tak naprawdę wszystko jest w porządku.

4:00-5:00 = Sprawdź duplikaty między domenami

Istnieją dwa podstawowe rodzaje duplicate content. Powielona treść może wystąpić na różnych podstronach w ramach tej samej witryny lub na podstronach różnych witryn. Ten drugi rodzaj może wystąpić kiedy różne twoje witryny współdzielą tę samą treść, kiedy partner w programie afiliacyjnym wykorzystuje treści jego właściciela lub też kiedy ktoś po prostu ukradnie treść. Problem z powieloną treścią jest taki, że kiedy zauważy ją Google, wybierze jedno źródło jako kanoniczne, a resztę zignoruje.

Jeśli podejrzewasz, że treść z badanej, „zagubionej” podstrony została wykorzystana też na innej witrynie lub z innej witryny wzięta, weź jej charakterystyczny, unikalny fragment i zapytaj o niego Google w dopasowaniu ścisłym (w cudzysłowie). Jeśli w wynikach zobaczysz witrynę inną niż twoja, cóż, mógł być to powód uznania twojej podstrony za duplikat i wyindeksowania jej.

5:00-7:00 = Sprawdź duplikaty wewnętrzne

Z „powieleniem” treści między podstronami tej samej witryny najczęściej mamy do czynienia gdy robot Google odwiedza kolejne wersje URL-u tej samej podstrony, może chodzić np. o różne parametry CGI w URL-u. Jeśli Google dotrze do tej samej podstrony mającej kilka URL-i, uzna że ma do czynienia z dwiema różnymi podstronami z tą samą treścią i jedną z nich zignoruje. Czasem jest to stan przez nas pożądany, ale czasem Google zignoruje nie tę podstronę, co trzeba.

Żeby wykryć taką sytuację, wpiszsite:twojastrona.pl w powiązaniu z fragmentem [title] badanej podstrony (wzięty w cudzysłów). Fragment ów możesz wprowadzić samodzielnie lub w ramach operatora intitle:. Pseudoduplikaty wynikające z różnych wariantów URL-i będą miały oczywiście identyczne znaczniki [title] i identyczne metadane, więc metoda ta wydaje się optymalna. Jeśli w wynikach wyszukiwania zobaczysz tę samą podstronę widoczną wielokrotnie, pod różnymi URL-ami, bądź też jedną lub dwie identyczne podstrony a następnie tekst podobny do tego…:

…może to oznaczać, że „zagubiona” podstrona została odfiltrowana z uwagi na „wewnętrzny” duplicate content.

7:00-8:00 = Sprawdź jakość anchor tekstów

Dwa ostatnie etapy są trochę trudniejsze od wcześniejszych i więcej zależy tu od twojej subiektywnej oceny. Jeśli zatem podejrzewasz, że problemem jest filtr nałożony na witrynę, oto kilka rad startowych potrzebnych do potwierdzenia lub obalenia twoich podejrzeń. Najłatwiej wykryć problem polegający na używaniu stałego, podejrzanego dla Google, schematu konstruowania anchor tekstów – zwykle chodzi o nadużywanie jakiejś niezbyt popularnej kombinacji słów kluczowych. Taka sytuacja może mieć swoje źródło w agresywnej, spamerskiej kampanii link-buildingowej lub np. w błędnie skonfigurowanym widgecie, który jest dla ciebie podstawą pozyskiwania linków.

Z lotu ptaka anchorom swoich linków przyjrzeć się możesz np. za pośrednictwem Open Site Explorera. Wprowadź po prostu URL, kliknij w Anchor Text Distributions (czwarta zakładka) i zaznacz Phrases:

Otrzymane w ten sposób wyniki przeszukaj wzrokiem na okoliczność nadmiernej liczby powtórzeń. Pewna liczba powtórzeń jest oczywiście w porządku; Google uznaje przecież naturalność wielokrotnych wystąpień w anchorze, przykładowo, nazwy twojej firmy lub marki. Ale już występujący w 70% linków do SEOmoz.org tekst „Danny Dover to świetny gość” w oczywisty sposób wygląda nienaturalnie. Jeśli Google uzna podobną sytuację za oznakę spamerskiego link buildingu, może nałożyć filtr na stosującą go witrynę.

8:00-10:00 = Sprawdź jakość linków

Ocena jakości linków to rzecz bardzo subiektywna, poza tym na pewno nie jest to zadanie wykonalne w 2 minuty. Jeśli jednak podejrzewasz, że twoja strona została ukarana przez Google, możesz dosyć szybko przejrzeć swoje linki pod kątem mogących sprowokować karę najpoważniejszych błędów. Znów użyjemy tutaj Open Site Explorera; wybieramy w nim kolejno opcje: Followed + 301, External Pages Only, All Pages on The Root Domain:

Jeśli chcesz, możesz wyeksportować linki do Excela (w celu zrobienia dogłębniejszej analizy), ale na razie wystarczy pobieżna ocena. Jeśli już na pierwszych kilku stronach znajdziesz coś podejrzanego, są duże szanse, że to właśnie linki są źródłem twoich problemów. Przejrzyj kilka pierwszych stron w poszukiwaniu:

  • podejrzanych anchor tekstów (niedopasowanych tematycznie, spamerskich itd.),
  • witryn o wyjątkowo niedopasowanej tematyce,
  • linków o otoczeniu jasno wskazującym na to, że były przedmiotem wymiany lub zostały opłacone,
  • linków zamieszczonych w wypchanej linkami stopce,

Sprawdź też, czy nie ma zbyt wielu linków z komentarzy na blogach lub innych niskiej jakości typów linków. Chociaż pełna analiza linków przychodzących zajmuje zwykle wiele godzin, dostrzeżenie praktyk ewidentnie spamerskich zajmuje zwykle kilka minut. Jeśli ty możesz je szybko znaleźć, szanse, że Google też już tego dokonał są całkiem duże.

(10:00) = Czas minął

10 minut to niby mało czasu (całkiem możliwe, że nawet ten artykuł czytałeś dłużej!), ale kiedy już zaczniesz go stosować, przekonasz się jak dużo można się w tym czasie dowiedzieć o swojej witrynie. Oczywiście zdiagnozowanie problemu i jego rozwiązanie to dwie różne rzeczy, ale mam nadzieję, że powyższa instrukcja przyda się chociaż jako zestaw rad startowych.

[źródło: 10-Minute Missing Page Audit]

czytaj także

Hostingi SEO i znaczenie adresów IP w zapleczu – Dominik Wojcik

Maciej Janas

O autorze

Maciej Janas

Od 2004 w poznańskich agencjach interaktywnych (UX, copy), od lutego 2010 do grudnia 2012 redaktor serwisu SprawnyMarketing.pl. Lubi tropić i opisyw...

zobacz więcej artykułów >>

Zostaw komentarz

  1. Redakcja

    Przypominamy, że wielkimi krokami zbliża się konferencja I ♥ Marketing & Technology, która odbędzie się już 16–18 kwietnia 2024 roku oraz organizowane przez nas 33 szkolenia z zakresu marketingu.

    Jeśli chcesz być zawsze na bieżąco, zamów prenumeratę magazynu sprawny.marketing!

    Z kolei jeśli chcesz mieć dostęp do całej wiedzy sprawny.marketing w jednym miejscu, subskrybuj platformę premium.sprawny.marketing.

  2. rgglowacki

    "Problem z powieloną treścią jest taki, że kiedy zauważy ją Google, wybierze jedno źródło jako kanoniczne, a resztę zignoruje."

    No tak – ale raczej w przypadku wewnętrznego DC – a w artykule zamieszczono to w części poświęconej DC między domenami.

    Z zewnętrznym DC nie jest to już takie proste.

  3. Józef Łysikowski

    Ja pominąłbym krok pierwszy i od razu sprawdził site:seodmoz.org/folder/page.htm, a jeżeli negatywne – to powrót do site:seodmoz.org

  4. Sebastian Jakubiec

    Od ogółu do szczegółu, czyli dążymy do konkretu. Skoro zakładamy, że site jest zagubiona to lepiej sprawdzić ogół – czy wogole cała witryna nie wyleciała :) acz to przeciąganie liny w stylu wyższości koloru żółtego, nad czerwonym ;)

  5. Piotr Hajda

    Miałem kłopot z podstroną z informacjami kontaktowymi "o firmie". Po optymalizacji prostej strony (website) składającej się z 4 stron (webpages), podstrona "o fimie" przestała się re-indeksować (w pamięci podręcznej znajdował się nieaktualny obraz podstrony sprzed optymalizacji.)

    Przypuszczalnie Google sklasyfikowało podstronę jako "over optimized". Zamiast usunąć przyczynę filtru, zastosowałem anty-lekarstwo linkując ze strony przejściowej. Efekt: "o firmie" wcale nie ma w Google…

    1. usunięcie strony przejsciowej
    2. usunięcie over optimized (napisanie kilku normalnych gramatycznych zdań)
    3. powrót do indexu
    4. wznowienie indeksowania (cofnięcie do pr 0)

    Wnioski: unikać stron przejsciowych, ostrożnie optymalizować pod stronki z niewielką ilością tekstu

  6. Świetny, ponadczasowy artykuł. ma już pięć lat, a nadal w tej tematyce raczej się nie wiele zmieniło. Bez powyższej wiedzy dużo się nie zdziała.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Wpisz imię
Napisz komentarz