Особенности работы с User-agent

Индексация содержимого страниц сайта поисковыми системами происходит при помощи различных поисковых роботов. Все они проводят на сайте определенное время. Поэтому важно, чтобы была проиндексирована вся нужная информация, которая может привлечь посетителей.

Если сайт состоит из большого количества страниц, то целесообразно скрыть от внимания ботов ту информацию, которая не является целью первоначального запроса при поиске информации по теме сайта в интернете. Также на период внесения изменений в тексты или оформление сайта можно скрыть его весь или отдельные страницы от поисковиков. Для того чтобы это сделать, нужно отредактировать файл Robots.txt, расположенный в корневой директории сайта. В нем прописываются строки User-agent – директив, которые задают инструкции ботам поисковых систем при работе с сайтом. Именно их нужно менять, чтобы управлять индексацией.

Особенности работы с User-agent

Что из себя представляет User-agent?

User-agent есть в любом браузере и мобильном устройстве. Эта строка содержит множество сведений о компьютере, операционной системе, версии браузера. Прописанные в файле Robots.txt, строки с описанием User-agent влияют на работу поисковых систем на сайте. С их помощью можно скрыть от поисковиков (от всех или каких-то определённых) находящуюся на сайте информацию – какую-то страницу или весь сайт, конкретный тип файлов. Ограничивая индексацию по типу файлов, к примеру, можно сделать видимыми только картинки, только тексты или, наоборот, исключить из индексации конкретный тип файла.

Ограничение видимости можно прописать для бота конкретной поисковой системы или для всех роботов. Инструкции прописываются для каждого робота, для которого известно написание User-agent.

Из строки, содержащей описание User-agent можно узнать следующие сведения:

  • Наименование основного браузера, его версию;
  • Версию операционной системы;
  • Какое специфическое программное обеспечение установлено на устройстве;
  • Вид устройства, с которого осуществляется выход в интернет.

Изменение User-agent может понадобиться не только для того чтобы редактировать параметры индексации сайта, но и чтобы скрывать нежелательную для отслеживания информацию: например, вид устройства для аккаунтов Google, VK. Также с помощью редактирования User-agent можно сделать актуальным устаревший браузер, перестать получать предложения об установке того или иного браузера. Изменение данной строки в разных браузерах и устройствах происходит по-своему. Следует искать инструкции для конкретного браузера или типа операционной системы (Android, iOS).

User-agent и поисковые роботы Google

Одной из самых популярных поисковых систем является Google, и этой системой создано множество ботов для индексации различного контента на сайтах и устройств, с которых осуществляется выход в интернет.

Некоторые боты системы:

  • APIs-Google – робот для рассылки push-уведомлений;
  • AdSense – распознает содержание сайта для размещения соответствующих тематике объявлений;
  • AdsBot Mobile Web Android, Mobile Apps Android, AdsBot-Google и AdsBot Mobile Web – для проверки рекламного контента, размещенного на сканируемом портале. Каждый из ботов отвечает за свои устройства – компьютеры, телефоны на IOS или Android, мобильные приложения;
  • Googlebot Images – сканирует файлы, являющиеся изображением;
  • Googlebot News – ищет информацию для размещения в новостном разделе системы;
  • Googlebot Video – отвечает за видеофайлы;
  • Googlebot.

Основной робот для поисковика Google – это Googlebot. В случае необходимости полной блокировки индексации всего сайта для этой системы, достаточно внести в файл Robots.txt условие, устанавливающее Googlebot агентом пользователя. Тогда для всех ботов компании Google сайт станет невидимым. Можно ограничить видимость определенного контента. Тогда нужно настроить правило для агента, отвечающего за этот контент. Например, сканированием изображений на сайте занимается Googlebot-Image. Запись в файле Robots, где оформляется данная операция, выглядит так:

User-agent: Googlebot

Disallow: (здесь остается пустое место, так как основному боту ничего не запрещается)

User-agent: Googlebot-Image

Disallow: /personal (запрет на видимость изображений в личном каталоге для бота, ответственного за контент данного типа).

Особенности работы с User-agent

Можно запретить индексацию всего сайта, но разрешить индексировать конкретный контент, например, видео или размещенную рекламу. К примеру, чтобы разрешить сканировать только видео, основному боту нужно запретить индексацию всего сайта, а в качестве агента, для которого запретов не предусмотрено, указать Googlebot Video.

Если сайт должен быть виден поисковой системе Google полностью, без исключений, то файл Robots.txt не нужен, его можно вовсе удалить (при условии, что не нужно ограничить какой-либо другой поисковик).

Списки User-agent

Чтобы просмотреть список User-agent поисковой системы, достаточно перейти в соответствующий раздел ее сайта в интернете.

Списки строк агента пользователя для всех ботов Google можно найти на официальной странице ресурса в разделе «Поисковые роботы Google». Там находится подробная таблица с описанием ботов, их назначения, строками User-agent для каждого из них и инструкциями по прописыванию правил доступа в robots.txt и метатегах.

Особенности работы с User-agent

Основным поисковым ботом Яндекса является Yandex, для Yahoo! это Slurp, Рамблер запускает по Сети бота StackRambler, у Мэйл.ру функцию основного робота выполняет Mail.Ru. обычно крупные поисковики имеют нескольких роботов, перечень которых должен быть на их сайте с указанием полных строк агентов пользователя.

Если специальных настроек видимости для роботов поисковых систем на сайте не требуется, то можно удалить файл robots.txt и тогда сайт компании будет полностью сканироваться всеми роботами, если какие-либо другие параметры не помешают индексации.

Дешево и все работает, без падений и геммороя. Я с него начинал
И я в том числе. Они номер 1 по надежности и по примочкам
Которые мне пишут тексты сотнями. Рефам даю подсказки в скайпе
Добавить в закладки
Голосовать ПРОТИВГолосовать ЗА 0
Загрузка...
Добавить комментарий

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: