Отправить заявку на SEO-продвижение сайта от Ant-Team.ru

Заказать

Почему так сложно попасть в индекс Google

Перевод статьи с портала MOZ.  

Каждый сайт стремится попасть в индекс Google. Ведь пользователи смогут найти ваши страницы, только если они будут проиндексированы поисковой системой. По крайней мере, все ожидают от поисковика именно этого.

Однако на практике дело обстоит немного иначе. Многие страницы вообще не индексируются Google.

Если вы когда-либо работали с крупным сайтом, то могли заметить, что далеко не каждая его страница попадает в индекс Google. Многим страницам приходится ждать неделями, прежде чем поисковый робот обратит на них внимание.

Отсутствие индексации зависит от различных факторов, многие из которых тесно связаны с ранжированием, например, качество контента и внутренние ссылки. Другие факторы обусловлены техническими сложностями. Сайты, активно использующие современные технологии, в прошлом испытывали серьезные проблемы с индексацией (а некоторые страдают до сих пор).

Многие по-прежнему считают, что иногда Google не может индексировать контент по сугубо техническим причинам, но это не более чем миф. Да, поисковый робот проигнорирует ваши страницы, если вы не отправляете технические сигналы о том, какие именно страницы требуют индексации. К аналогичному результату может привести и недостаточный краулинговый бюджет. Однако не менее важным критерием для попадания в индекс является качество вашего контента.

На большинстве сайтов, как  крупных, так и совсем небольших, есть много контента, который нужно проиндексировать. Но почему-то этого не происходит. И хотя такие вещи, как JavaScript, действительно усложняют задачу, но в индекс могут не попадать даже сайты, написанные на чистом HTML. В этой статье мы рассмотрим наиболее распространенные проблемы и предложим способы их решения.

Почему Google не индексирует ваши страницы?

Используя специальный инструмент проверки индексации, я проанализировал большое количество популярных в США интернет-магазинов. Оказалось, что в среднем 15% продуктовых страниц не были проиндексированы.

Меня удивили такие результаты. Поэтому на следующем этапе я решил выяснить причины, по которым Google решает не индексировать страницы, технически для этого пригодные.

Google Search Console позволяет узнать статус таких страниц, например, Crawled — currently not indexed (Просканировано — на данный момент не проиндексировано) или Discovered — currently not indexed (Обнаружено — на данный момент не проиндексировано). Хотя подобные сведения не помогают напрямую решить проблему, их можно использовать для дальнейшей диагностики.

Почитайте наш перевод статьи о том, как сделать запрос к API Search Console, чтобы получать более согласованные данные, а также увеличить экспорт на 400%  (примеч. Ant-team.ru).

Главные проблемы с индексированием

На основе большой выборки сайтов, а также отчетов Google Search Console, я выделил следующие распространенные проблемы, связанные с попаданием в индекс:

1. Crawled — currently not indexed (Просканировано — на данный момент не проиндексировано).

В этом случае поисковый робот посетил страницу, но не проиндексировал ее.

Обычно проблема заключается в качестве контента. Учитывая, что сейчас мы наблюдаем стремительный рост числа интернет-магазинов, Google вполне ожидаемо стал более избирательным в вопросах качества. Поэтому, если ваши страницы помечены как Crawled — currently not indexed, убедитесь, что их контент обладает достаточной ценностью:

  • Используйте уникальные теги title, description и уникальный текст на всех индексируемых страницах.
  • Не копируйте описания продуктов из внешних источников.
  • Используйте канонические теги для объединения дублированного контента.
  • Запретите поисковому роботу сканировать или индексировать некачественные разделы сайта с помощью файла robots.txt или тега noindex.

Ознакомьтесь с нашим переводом статьи Криса Лонга про статус “Просканировано, но не проиндексировано”: что он означает и как от него избавиться (примеч. Ant-team.ru).

2. Discovered — currently not indexed (Обнаружено — на данный момент не проиндексировано).

Это моя любимая проблема, поскольку она охватывает практически все аспекты: от задержки сканирования до низкого качества контента. Особенно подвержены этой проблеме крупные интернет-магазины. Мне встречались случаи, когда на одном сайте десятки миллионов URL-адресов были отмечены как Discovered — currently not indexed.

Рисунок 1. Discovered — currently not indexed

Продуктовым страницам поисковый робот присваивает такой статус по следующим причинам:

  • Проблема с краулинговым бюджетом. В очереди на сканирование слишком много URL-адресов. Они могут быть просканированы и проиндексированы позже.
  • Проблема с качеством. На основе закономерностей в URL-адресах поисковая система решает, что некоторые страницы в этом домене не стоит сканировать, и не посещает их.

Чтобы справиться с этой проблемой, необходимы определенные знания и опыт. Если вы обнаружили, что страницы помечены как Discovered — currently not indexed, выполните следующие действия:

1. Определите, есть ли закономерности между страницами, попадающими в эту категорию. Возможно, проблема связана с определенной категорией товаров, и при этом отсутствуют внутренние ссылки. Или ваши страницы уже находится в очереди на индексацию.

2. Оптимизируйте краулинговый бюджет. Найдите некачественные страницы, на сканирование которых поисковый робот тратит много времени. Как правило, к ним относятся страницы фильтрации и страницы внутреннего поиска. На сайте стандартного интернет-магазина количество таких страниц достигает десятков миллионов. И если Googlebot может свободно сканировать такие страницы, то у него просто не останется ресурсов для доступа к ценным материалам на других страницах вашего сайта.

Во время вебинара Rendering SEO Мартин Сплитт (Martin Splitt) из Google дал несколько ценных советов по решению проблемы Discovered not indexed.

3. Duplicate content (Дублированный контент).

Дублированный контент может возникать по самым разным причинам:

  • Варианты языка (например, английский язык в Великобритании, США или Канаде). Если у вашей страницы есть несколько версий, ориентированных на пользователей из разных стран, некоторые из них могут остаться непроиндексированными.
  • Дублированный контент, используемый вашими конкурентами. Часто несколько интернет-магазинов используют одно и то же описание продукта, предоставленное производителем.

Почитайте наш перевод статьи о том, как найти и удалить дубли страниц на сайте (примеч. Ant-team.ru).

Помимо rel=canonical, 301 редиректа или уникального контента, можно сосредоточиться на действительно полезных для клиента функциях. В качестве примера я приведу сайт fast-growing-trees.com. Вместо скучных описаний и советов по посадке и поливу, вы найдете здесь подробный раздел вопросов и ответов с полезной информацией по многим продуктам.

Кроме того, можно легко сравнивать похожие товары по целому ряду параметров.

Рисунок 2. Сравнение

Помимо уже имеющегося раздела FAQ, каждый покупатель может задать вопрос о том или ином растении и получить подробный ответ от сообщества.

Рисунок 3. Ответ от сообщества

Как проверить индексацию сайта

Вы можете легко проверить количество непроиндексированных страниц вашего сайта, открыв соответствующий отчет в Google Search Console (Index Coverage report).

Рисунок 4. Index Coverage report

Первое, на что следует обратить внимание, — это количество исключенных страниц. Затем попробуйте найти закономерность и понять, какие категории страниц не индексируются.

Если вы владелец интернет-магазина, то, скорее всего, увидите непроиндексированные продуктовые страницы. Хотя это всегда является тревожным знаком, но не стоит ожидать, что в индекс попадут все продуктовые страницы вашего сайта (особенно если он достаточно большой). Например, на сайтах крупных интернет-магазинов обязательно будут дублирующие страницы, а также товары с истекшим сроком годности или отсутствующие на складе. Как правило, у таких страниц недостаточно высокое качества, чтобы оказаться в самом начале очереди на индексацию (если поисковый робот вообще решит их сканировать).

Кроме того, крупные интернет-магазины обычно имеют проблемы с краулинговым бюджетом. Мне встречались случаи, когда в интернет-магазине с миллионом товаров в ассортименте 90% страниц были классифицированы как Discovered — currently not indexed. Но если вы заметили, что из индекса Google начали пропадать важные страницы, это действительно повод для беспокойства.

Как повысить шансы страниц на индексацию

У разных сайтов могут быть разные проблемы с попаданием в индекс. Тем не менее существует ряд советов, которые в большинстве случаев дают положительный результат.

1. Избегайте сигналов Soft 404.

Убедитесь, что на ваших страницах нет ничего, что могло бы выдавать ложную ошибку 404. Это относится даже к фразам «не найдено», «недоступно» в тексте страницы или к числу 404 в URL-адресе.

2. Используйте внутренние ссылки.

Внутренние ссылки — один из ключевых сигналов для поисковой системы, что данная страница является важной частью сайта и заслуживает попадания в индекс. Не оставляйте страницы без ссылок, а также включите все индексируемые страницы в карту сайта.

3. Разработайте надежную стратегию сканирования.

Не позволяйте Google сканировать на сайте все подряд. Если на сканирование менее ценных частей сайта уходит слишком много ресурсов, поисковый робот может очень нескоро добраться до действительно важных страниц. Анализ журналов сервера поможет понять, что именно сканирует Googlebot и как оптимизировать процесс.

4. Устраните некачественный и дублированный контент.

На каждом крупном сайте в конечном итоге появляются страницы, которые не нужно индексировать. Убедитесь, что такие страницы отсутствуют в картах сайта, и при необходимости используйте тег noindex и файл robots.txt. Если Google проводит слишком много времени на менее качественных страницах, он может недооценить общее качество вашего домена.

5. Отправляйте правильные SEO-сигналы.

Один из распространенных примеров отправки неправильных SEO-сигналов в Google — это изменение канонических тегов с помощью JavaScript. Как заявил Мартин Сплитт из Google во время JavaScript SEO Office Hours: «Нельзя быть уверенным в действиях Google, если один канонический тег находится в исходном HTML, а другой появляется после рендеринга JavaScript».

Интернет разрастается слишком быстро

За последние пару лет Google совершил гигантский скачок в обработке JavaScript, упростив работу SEO-специалистов. В наши дни нечасто можно увидеть сайты на JavaScript, которые не индексируются по причине сложности использованных технологий.

Устранит ли Google таким же образом и другие проблемы с индексацией? Не думаю.

Интернет постоянно расширяется. Каждый день появляются новые и разрастаются уже существующие сайты.

Сможет ли поисковая система справиться с этой задачей?

Вопрос становится все более актуальным. Я бы хотел процитировать представителей самой компании:

«У Google ограниченное количество ресурсов. Поэтому, сталкиваясь с практически бесконечным количеством доступного в интернете контента, Googlebot способен найти и просканировать только определенный его процент. И только определенная часть просканированного контента сможет попасть в индекс Google».

Другими словами, Google может посещать только часть всех страниц в интернете, и еще меньшую часть — индексировать. И даже если у вас очень крутой сайт, необходимо помнить это правило.

Google, скорее всего, не будет просматривать все страницы вашего сайта, даже если он относительно небольшой. Поэтому ваша задача — убедиться, что поисковая система сможет обнаружить и проиндексировать действительно важные страницы.

Автор: Томек Рудски

P.s. Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов. Мы публикуем только полезный контент по SEO, например, как использовать Google Indexing API для мгновенного сканирования страниц.