We wtorek, 28 czerwca 2022 r., Google opublikował aktualizację dokumentacji Googlebota, która wyjaśnia, że Googlebot „widzi” tylko pierwszych 15 megabajtów podczas pobierania określonych typów plików. To ograniczenie istnieje od lat, ale dopiero niedawno zostało dodane do dokumentacji, aby pomóc w debugowaniu. Należy zauważyć, że to ograniczenie dotyczy tylko początkowego żądania wysłanego przez Googlebota, a nie zasobów, do których odwołuje się strona (np. jeśli strona HTML odwołuje się do pliku JavaScript, Googlebot nadal będzie mógł wyświetlić i pobrać plik JavaScript). Prawdopodobnie nowy limit 15 MB Googlebota nie będzie miał większego wpływu, ponieważ niewiele stron w internecie jest większych. Jeśli jednak masz strony HTML powyżej 15 MB, możesz spróbować przenieść niektóre skrypty wbudowane i CSS do plików zewnętrznych. Treść po usunięciu pierwszych 15 MB przez Googlebota i tylko pierwsze 15 MB jest przekazywane do indeksu. Dotyczy to pobierania przez Googlebota (smartfona Googlebota i komputer Googlebota) podczas pobierania typów plików obsługiwanych przez wyszukiwarkę Google. Przyzwyczajenie. Googlebot pobiera filmy i obrazy, do których odwołuje się HTML, używając adresów URL (na przykład <img src="https://example.com/images/puppy.jpg" alt="Słodki szczeniak wygląda na rozczarowanego" />
jest oddzielona od ekstrakcji ciągłej. TAk. Użycie Data URI{rel="nofollow"} zwiększy rozmiar plików HTML, ponieważ znajdują się one w plikach HTML. Jest wiele sposobów, ale prawdopodobnie najłatwiej jest użyć własnej przeglądarki i jej narzędzi programistycznych. Załaduj stronę jak zwykle, a następnie uruchom narzędzia programistyczne i przejdź do karty Sieć. Załaduj ponownie stronę i powinieneś zobaczyć wszystkie żądania przeglądarki, które musi wykonać, aby wyrenderować stronę. Górne żądanie jest tym, czego szukasz, a rozmiar strony w bajtach znajduje się w kolumnie Rozmiar. Na przykład może to wyglądać tak w Narzędziach dla programistów Chrome{rel="nofollow"}, z 150 kB w kolumnie rozmiaru: jeśli chcesz sprawdź, ile danych pobrał Googlebot podczas indeksowania Twojej witryny, możesz skorzystać z karty Sieć w Narzędziach dla programistów Chrome lub użyć cURL z wiersza poleceń. Aby użyć cURL, wpisz następujący kod: curl \ -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, jak Gecko) Chrome/103.0.0.0 Safari/537.36" \ -so /dev / null https://example.com/szczeniaki.html -w '%{size_download}' Zastąp ciąg „https://example.com/szczeniaki.html” adresem URL strony, którą chcesz sprawdzić. Jeśli masz więcej pytań na temat tego procesu, więcej informacji znajdziesz na Twitterze i forum Centrum wyszukiwania. Możesz również wystawić opinię na stronie dokumentacji, jeśli potrzebujesz więcej wyjaśnień.