Если Comparser продолжит развиваться, то сможет заменить остальные пауки

На днях приобрел программу Comparser от Алаева. Надо сказать, что я точно знал, что за программу беру. Я пользовался демоверсией, мой друг принимал участие в тестировании, а сам я рассказывал о программе на семинаре в своей компании. То есть я, когда покупал, знал, за что отдаю 2К, как и знал, что своих денег программа стоит. Есть программы вроде Key Collector, за которые не жалко отдавать деньги (в том числе благодаря ценовой политике их создателей). Comparser лично для меня к таким программам относится, учитывая его потенциал к росту (Алаев неоднократно подчеркивал, что стремится развивать программу). Позже напишу обзор на неё, а пока хотелось бы выделить направления, в которых хотелось бы пожелать развиваться.

Так уж получилось, что я сейчас использую три паука для сканирования сайта — Screaming Frog, Netpeak Spider и вот теперь ещё Comparser. Все потому, что у каждого из них есть уникальные функции относительно другого. Еще я использовал PageWeight, но Screaming Frog и Netpeak Spider в связке в основном могут его заменить.

Netpeak Spider считает вес страниц. Если бы эта функция была у Comparser, я бы скорее всего отложил продукт от Netpeak в ящик с воспоминаниями. Расчет веса реально помогает без особых усилий определить, достаточно ли статического веса получают продвигаемые страницы, насколько важны они в рамках сайта. Но в общем функционал Netpeak скудный, и при выгрузке больших проектов в Excel он у меня нередко зависал.

Если у Нетпик нужно только расчет веса «отобрать», то для того, чтобы полноценно заменить и Screaming Frog, потребуется больше усилий. Я пользуюсь следующими его функциями, которые пока не видел у других парсеров:

Word Count. Подсчет количества слов между тегами body. Например, в связке с Mode-List я так определяю страницы без текстов, с короткими текстами, или с длинными текстами (при проверке доноров, например).
Configuration — Custom. Можно задать список стоп-слов (например, нецензурщины) и найти страницы, где эти слова присутствуют. Можно через разделитель их задавать. Если меняете почту — тут же ищем все страницы с упоминанием старой почты и меняем. Можно найти все стронги или код Гугл Аналитикс. Словом, вещь необходимая.
Функции Bulk Export. То есть выгрузка всех анкоров с сайта, всех текстов из тега alt картинок и картинок без alt.
Работа с изображениями. Фрог может показать все картинки размеров более 100 кб и с длиной текста в alt более 100 символов. То есть если основной контент сайта — изображения, то Screaming Frog реально сейчас незаменим.
Вычисление URL с длиной более 115 символов.
Лягушка ищет H1, совпадающие с Title.

Из других фишек — Screaming Frog смотрит наличие параметра Last-Modified, скорость загрузки страницы и её размер.
Но эта чудо-программа имеет и свои минусы. Поскольку я не нашел, где включить «Лайт-режим» без всех этих дополнительных функций, у меня не хватает оперативки, чтобы парсить крупные порталы по 100-200 тысяч страниц. Приходилось включать PageWeight.

На этом пожалуй закончу поток мыслей по поводу того, чего не хватает Comparser, чтобы не просто стать лучшим предложением на рынке, а гегемоном подобно Key Collector. Кстати более подробный обзор по использованию Screaming Frog можно прочесть у меня же на блоге.

Авторам лучших комментариев и дополнений к статье пишу на почту и иногда палю кое-какие темы

–

АлаичЪ

Ответить

Спасибо за предложения и отзыв.
Про расчет веса страниц сразу же могу сказать, что это не закладывалось изначально и изначально это не планировалось ни в каком виде. Именно благодаря этому можно добиться работы с большими проектами. Лично я парсил для теста vk.com и напарсил более 1 000 000 страниц и программа парсила дальше без затыков.
Если собирать еще и все ссылки и анкоры и кто куда ссылается, то будет как скриминг — все упадет после сбора 50к страниц.

Остальные замечания принял — они верные. Записал в to-do. Будем внедрять постепенно в ближайших обновлениях!

Если Comparser продолжит развиваться, то сможет заменить остальные пауки

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: