* РБК — новости

* *

Как вы используете robots.txt для улучшения индексации и качества вашего сайта

  1. Что такое robots.txt Для тех из нас, кто не знает, что такое robots.txt, вот один объяснение в...
  2. Разрешить страницы
  3. Отказаться от страниц
  4. фильтры
  5. пагинация
  6. сортировка
  7. Результаты поиска
  8. Идентификаторы сессии
  9. XML Sitemap
  10. Узнать параметры в Инструментах Google для веб-мастеров
  11. Проверьте свой файл robots.txt в Инструментах Google для веб-мастеров.

Что такое robots.txt

Для тех из нас, кто не знает, что такое robots.txt, вот один объяснение в соответствии с Google :

С файлом robots.txt вы ограничиваете доступ к своему сайту для роботов поисковых систем, которые сканируют Интернет. Эти роботы автоматизированы, и перед посещением сайта они сначала проверяют, существует ли файл robots.txt, который не позволяет им сканировать определенные страницы.

<iframe width = "560 ″ height =" 315 ″ src = "https://www.youtube.com/embed/I2giR-WKUfY" frameborder = "0 ″ allow =" autoplay; зашифрованный носитель »allowfullscreen> </ iframe>

С вашим robots.txt вы можете указать, что бот может или не может посетить. В приведенном выше фрагменте вы можете прочитать, что бот сначала проверяет наличие файла robots.txt. Это всегда должно быть в корне сайта, чтобы файл был доступен по адресу https://www.domein.nl/robots.txt. Если у вас есть несколько поддоменов, то каждый поддомен имеет отдельный файл robots.txt.

Пользовательский агент

Robots.txt состоит из нескольких простых инструкций для бота. С помощью инструкции 'user-agent' вы можете устанавливать правила, которые различаются для каждого user-agent. пользовательский агент согласно WikiPedia это компьютерная программа, которая принадлежит сетевой функции или протоколу. Пользовательский агент Google для сканирования веб-страниц называется «Googlebot», для Google Images - «Googlebot-Images». Если вы хотите дать всем ботам одинаковые инструкции, запустите ваш robots.txt с:

Пользовательский агент: *

Разрешить страницы

С помощью оператора «Разрешить» вы можете разрешить использование папок или страниц для бота. По умолчанию разрешены все страницы, но для полноты этой инструкции часто упоминается в файле robots.txt.

Разрешить: /

Отказаться от страниц

Если вы хотите исключить определенные части вашего веб-сайта из Google, вы можете использовать «запретить» инструкции. Это могут быть страницы, которые вы не хотели бы видеть в индексе из-за содержания. Но также некачественные страницы или страницы с, например, дублированным контентом. В этой статье будут подробно рассмотрены последние два.

Disallow: / папка /
Disallow: /page.html

фильтры

Использование фильтров особенно легко для посетителя. С помощью фильтров посетитель может быстро сократить выбор из сотен продуктов до более полного, например, 10 продуктов. Эти 10 продуктов соответствуют критериям выбора посетителя, таким как цвет, цена, вес или размер.

Однако фильтры могут предоставлять много разных страниц. Это потому, что несколько фильтров могут быть активны, создавая разные URL. Эти URL-адреса обычно также доступны для поисковой системы и содержат относительно мало уникального контента. Смотря на качество вашего сайта, фильтры гарантируют много некачественного контента, и они отравляют вас бюджет обхода хорошо. Хорошая причина, чтобы исключить это. Между прочим, не исключайте все фильтры, но обратите особое внимание на фильтры, которые мало добавляют с точки зрения содержания или которые люди не ищут. Вы знаете последнее, потому что вы явно провели тщательный анализ ключевых слов при создании вашего сайта.

Исключая фильтры могут выглядеть так:

# Фильтры
Disallow: / * цвет =
Disallow: / * размер =
Disallow: / * материал =

пагинация

Разбивка на страницы, разделение контента на несколько страниц, также может обеспечить низкокачественный контент и дублированный контент. Robots.txt может помочь с этим, но часто правильная техническая реализация сочетается с метатег роботов лучшее решение.

Предположим, вы разделили категорию «мужская обувь» на 5 страниц. URL-адрес страницы 1 - https://www.domein.nl/heren/schoenen, а URL-адрес страницы 2 - https://www.domein.nl/heren/schoenen?p=2. Когда вы вернетесь на страницу 1, URL-адрес должен совпадать с первым, но на практике вы часто видите следующий URL-адрес https://www.domein.nl/heren/schoenen?p=1. Теперь вы, наверное, понимаете, что это не самая идеальная ситуация, 2 разных URL для одной страницы. С robots.txt вы можете исключить этот последний вариант:

# Пагинация
Disallow: / * p = 1 $

Обратите внимание на знак $ в конце. Если вы забудете этот знак, вы также исключите страницы 10, 11, 12 и далее, поскольку они соответствуют инструкциям запрета. Как я уже говорил, правильная техническая реализация лучше. Затем вы гарантируете, что такой URL, как? P = 1, не существует, но использует URL соответствующей категории.

Страницы 2 и выше добавляют сравнительно небольшую ценность для вашего сайта с точки зрения содержания. Конечно, вы хотите, чтобы поисковая система нашла все товары, и вы хотите передать ценность входящих ссылок. Однако страницы не должны появляться в индексе Google, чтобы улучшить качество страниц в индексе Google. Это можно сделать с помощью метатега роботов на странице 2 и далее:

сортировка

Сортировка - еще одно препятствие в миссии по улучшению индексированного качества вашего сайта. На многих сайтах электронной коммерции вы видите такие варианты, как «сортировать по цене» или «показывать 20 товаров на странице».

После выбора такой опции вы увидите, что параметры часто добавляются в URL, например, «dir = asc» или «order = price». Когда параметры добавляются к URL-адресу, фактически создается уникальный URL-адрес, который в этом случае показывает почти одинаковое содержимое (в другом порядке). Вы, наверное, понимаете, куда я хочу пойти, потому что это опять дубликат или некачественный контент. Вы можете исключить сортировку следующим образом:

# Сортировка
Disallow: / * dir =
Disallow: / * заказ =
Disallow: / * предел =

Результаты поиска

На большинстве веб-сайтов можно искать определенный контент или продукты. Открытая система снабжения, такая как Magento, также предлагает такую ​​возможность, но вы часто видите результаты поиска в индексе Google. Вы бы тоже не стали этого делать, потому что это страницы, которые мало что добавляют на ваш сайт. Вот почему разумно исключить все результаты поиска на веб-сайте из поисковой системы, такой как Google.

#search
Disallow: / catalogsearch /
Disallow: / * s =

В последнем примере (/ * s =) s следует заменить на параметр, который добавляется к URL-адресу при выполнении поиска на веб-сайте.

Идентификаторы сессии

Например, когда вы помещаете товары в корзину для покупок в интернет-магазине, они будут «запомнены» интернет-магазином во время вашего посещения. Это делается путем привязки уникального идентификатора к вашей сессии посещения. Эти идентификаторы запоминаются путем сохранения их в файле cookie или путем включения их в качестве параметра в URL. Этот последний метод гарантирует, что новый идентификатор назначается для каждой сессии (за посещение веб-сайта), короче говоря, для всех URL-адресов с одинаковым содержимым для каждой сессии. На практике это вызывает проблемы. Каждый сеанс бот видит новые URL с одинаковым содержанием. Бот сканирует по x страниц за раз, и поэтому ваши продукты появятся в индексе Google довольно долго.

В ряде систем с открытым исходным кодом используются распознаваемые идентификаторы сеансов. Используется так Magento SID, интернет-магазин использует и использует osCsid Zen Cart zenid. Исключение этих параметров является первым шагом, но часто можно выбрать использование идентификаторов сеанса через файлы cookie или URL-адреса в системе. Тогда конечно выберите первое.

# Идентификаторы сессии
Disallow: / * SID =
Disallow: / * osCsid =
Disallow: / * zenid =

XML Sitemap

Использование HTML или XML карта сайта часто полезно для поисковой системы. Страница предоставляет полный обзор всех URL на вашем сайте. Карта сайта XML часто лучше, когда она касается большого количества URL, как вы часто видите в интернет-магазинах. Однако местоположение XML-карты сайта не может быть отслежено поисковой системой напрямую. Вы можете объявить местоположение карты сайта, загрузив ее в Инструменты Google для веб-мастеров (Конфигурация сайта> Карты сайта), но вы также можете добавить местоположение в свой файл robots.txt как правило. Таким образом, каждый бот знает, где найти карту сайта XML. Вы указываете местоположение карты сайта следующим образом:

# Карта сайта
Карта сайта: https://www.domein.nl/sitemap.xml

Узнать параметры в Инструментах Google для веб-мастеров

После того, как вы проверили свой веб-сайт на предмет возможного дублирования или проблем с некачественным контентом, вы можете Инструменты Google для веб-мастеров чтобы увидеть, завершен ли ваш robots.txt. Через «Конфигурация сайта»> «Параметры URL»> «Настройка параметров URL» вы найдете обзор параметров, обнаруженных Google во время сканирования. Справа от каждого параметра вы найдете ссылку «Изменить», которая позволяет самостоятельно устанавливать правила с помощью Инструментов для веб-мастеров или просматривать примеры URL-адресов. Поэтому убедитесь, что вы исключили все важные параметры, которые могут вызвать проблемы.

Проверьте свой файл robots.txt в Инструментах Google для веб-мастеров.

Как только ваш robots.txt готов, вы можете опубликовать его в Интернете. Более разумно сначала проверить правила, потому что вы не хотите случайно исключить весь важный контент. К счастью, Инструменты Google для веб-мастеров предоставляют возможность протестировать ваш файл robots.txt по x количеству URL. Если вы хотите быть уверены, что не исключили что-то случайно, скопируйте в Google Analytics протестируйте лучшие 50 или 100 целевых URL через органический трафик. Вы можете проверить это, выбрав «Конфигурация сайта»> «Доступ для сканера».

Скопируйте файл robots.txt и вставьте его в первое текстовое поле, затем вставьте верхние целевые URL-адреса во второе текстовое поле. После того, как вы нажмете «тест», вы увидите в каждой строке, разрешено ли боту сканировать URL или нет.

Nl/heren/schoenen?
Nl/heren/schoenen?
Затем вы гарантируете, что такой URL, как?

Реклама

Популярные новости


Реклама

Календарь новостей

Реклама

Архив новостей

Реклама