Эта статья о том, как можно облегчить и ускорить чистку баз сайтов для размещения в интернете.
Моя ТОП База содержит в себе более 12 основных видов сайтов для бесплатного самостоятельного размещения в интернете — форумы, каталоги фирм, пресс-релизовые сайты, доски объявлений, соцсети, блоговые системы, сервисы вопросов-ответов, сервисы отзывов, каталоги сайтов, каталоги статей, «трастовые сайты» (в основном профили), рейтинги, видеохостинги, «добавить тур», «добавить акцию» и разное другое.
Имеет более 2000 подкатегорий внутри — по видам сайтов, тематикам, регионам РФ и странам СНГ, немного другие страны на русском и примерно 10% — англоязычная часть базы. Как для ручной работы — в тхт формате, так и для Allsubmitter в asd4 формате (для полуавтоматической регистрации).
Всего сейчас осталось около 12.400 сайтов — чистка идет более быстрыми темпами, чем пополнение. Хороших сайтов для бесплатного размещения не так много, как хотелось бы. Каталоги сайтов, каталоги статей и так называемые «трастовые сайты» занимают самую незначительную часть базы — несколько сотен в совокупности и рекомендуются в последнюю очередь.
База собирается полностью вручную. Автоматизация используется только частично для первичного парсинга и первичного отбора сайтов для чистки. Дальше вручную.
С каждым разом я чищу все жестче и жестче, хотя цели у моих покупателей бывают самые разные. У кого-то — трафик и продажи, у кого-то — ссылочное. Кому-то — как основное ссылочное, кому-то разбавить покупное. Кому-то ценен любой тематический сайт, кому-то нужны только с лучшими показателями. Кому-то продвинуть сателлиты, PBN или надстроить ссылочную пирамиду, кому-то — продвинуть основной сайт.
Я стараюсь подстраиваться подо все цели, но все-таки убираю все сомнительные сайты, которые вижу. Даже если выглядит как живой и может принести трафик, но по совокупности параметры не очень или явно переспамлен — убираю.
Google сейчас ужесточает требования к ссылочной массе — постоянно ужесточаю и я. Я не держу плохих или нерабочих сайтов в базе ради количества, только по недосмотру, или в периоды, когда давно не было чисток, т.к. сайты исчезают ежедневно. По-прежнему мой главный критерий — «живой сайт». Дальше покупатели, если хотят, фильтруют по другим параметрам сами, как им угодно. В помощь тот же Чектраст.
Как проходит чистка ТОП Базы
За более 10 лет работы с ТОП Базой у меня наработана большая собственная система, как быстро найти максимум неработающих сайтов.
Ведь если просматривать вручную все 13 тыс, которые есть на текущий момент (а раньше было в два-три раза больше) — это по факту просмотреть тысяч 50 страниц. Это и дорого, если делегировать, и очень-очень долго. Поэтому такую работу я проделываю частично раз в год, а в целом стараюсь концентрироваться на том, чтобы находить не рабочие сайты по разным совокупным признакам.
Делегирование, кстати, по-прежнему у меня идет с большим скрипом — все помощники, с которыми я работала, имеют в среднем 30% брака и обучать их для ощутимого изменения результата не получается. Учитывая, что некоторые тематики или регионы в ТОП Базе насчитывают всего пару сотен сайтов, такой брак достаточно ощутим. Если выкинуть много рабочих сайтов из базы — такое же количество новых найти гораздо сложнее. Хороших сайтов для бесплатного размещения гораздо меньше, чем хотелось бы. Поэтому я по-прежнему стараюсь проделывать много работы сама, либо как второй этап после помощника.
Ошибки 500, 403, 404 далеко не всегда означают, что сайт не работает — это может быть перенос страницы регистрации (и нужно найти новую, рабочую страницу), удаление данного раздела (например, форум удалили, а каталог фирм на этом домене остался). А часто это просто необходимость авторизоваться. Или полностью рабочая страница может выдавать ошибку.
Ошибка 0 — сервер не отвечает — тоже не всегда означает нерабочий сайт, часто это временный сбой хостинга во время сканирования или просто в этот день.
Поэтому все не так просто и даже частично автоматизированная чистка предусматривает минимум неделю плотной работы и тысячи ручных просмотров.
Чектраст
Один из этапов (только один из нескольких) — анализ базы в сервисе Чектраст. Есть его десктопный аналог — программа Фасттраст, от того же автора — Александра Алаева. Он у меня тоже есть, но я предпочитаю сейчас онлайн-сервис, т.к. там все гораздо проще, ничего не нужно настраивать, а стоит он дешево.
Проверить Чектрастом 13000 сайтов на несколько базовых параметров (включая ИКС) стоит всего 200 рублей и занимает около 2-х часов.
Ниже на скриншоте проверка по параметрам в Чектраст (можно выбрать и больше параметров).
Собственные параметры Чектраста — Заспамленность и Траст могут быть спорными в отдельных случаях — хороший крупный живой портал может иметь не самые лучшие характеристики именно Траста и Заспамленности (по Чектрасту), но иметь высокие другие — в частности, поисковый трафик по релевантным запросам, иметь достаточно высокий ИКС, быть живым и активным.
Особенно плохо в этом плане с Заспамленностью. Любой хороший каталог фирм, пресс-релизовый сайт, форум с активными прямыми ссылками будет считаться заспамленным по этим параметрам, но на мой взгляд полезен для размещения.
Поэтому я чищу только по самым крайним границам этих параметров, остальное проверяется мной вживую или по совокупности разных параметров.
То, что Чектраст маркирует, как «Плохой» далеко не всегда можно отнести к такой категории, особенно, если речь про живые, активные, посещаемые тематические сайты, где полезно засветиться и получить целевых посетителей или если речь про разбавление ссылочной массы естественными ссылками.
То, что он назовет «Отличным» может быть мертвым сайтом.
ИКС Яндекса показал себя как хороший параметр для чистки баз. Когда я проверяю вручную все сайты с низким или высоким ИКС, вижу, что он действительно достаточно хорошо отображает качество сайта и наличие трафика.
Каждый раз при чистке удаляю многие сайты, где ИКС = 0 и 10. Но все равно всегда все смотрю вручную — где-то бывает живой хороший сайт, но еще не успели ему дать ИКС, или он не успел подняться. Удаляю траст 0 по Чектрасту и сильно заспамленные.
Есть много бесплатных онлайн-сервисов для массового определения ИКС Яндекса (часть можно найти у меня в обзоре по ссылке, но есть и другие).
Но если у вас есть достаточно свежий Allsubmitter (хотя бы годовалой давности), то с ним вы можете проверить базы удобно и массово и на ИКС, и на другие параметры.
Allsubmitter
С Allsubmitter проверить такое количество только на ИКС занимает целый день, а то и около суток. Хотя и почти бесплатно — оплачиваете только стоимость каптчи в Антигейт.
Вот как выглядит проверка по ИКС в Allsubmitter — на скриншоте ниже. Это только в новом модуле «Полуавтоматическая регистрация V2».
В новом есть и несколько других полезных для чистки проверок:
Чтобы проверить любой параметр у сайтов, выделяем в разделе «База» (в модуле «Полуавтоматическая регистрация V2») сайты в нужной подкатегории и нажимаем сверху на значок «Икс», потом, когда спросит про планировщик, выбираем «Нет» — он пока тоже временно еще не работает корректно (т.к. это Бета-версия).
Потом, когда параметры будут проверены, мы можем, например, перенести сайты с нужными параметрами в отдельную подкатегорию в Базе и работать только по ней. Или вручную проверить все сайты с низкими параметрами (как это делаю я во время чисток).
Но в новом модуле Allsubmitter «Полуавтоматическая регистрация V 2» нет проверки по Title.
Поэтому содержание Title сайтов одновременно с ответом сервера (HTTP-код) я проверяю в старом модуле.
Вот старый и новый модули в меню Allsubmitter:
Вот проверка параметров в разделе «База каталогов» в старом модуле «Полуавтоматическая регистрация»:
Ниже покажу, как это выглядит в Title, и что я там потом проверяю.
1. Ответ сервера (HTTP код)
Выделяю нужную часть базы, выделяю все сайты, перехожу в левой колонке в пункт «Определить параметры сайтов». И выбираю для проверки параметр http код. Только не прогоняйте сразу большое количество сайтов. Лучше всего партиями по 1-3 тыс. сайтов за раз. Иначе программа может зависнуть (по крайней мере у меня бывает).
Основной ответ, успешный — 200. Но (!) далеко не всегда сайт при этом рабочий. Другие, наверняка ошибочные – 403, 404, 500, 502, 12007, 12039 и прочие. Но и это тоже далеко не всегда нерабочие страницы.
Прогоняю на 2-3 раза, т.к. иногда бывает по какой-то причине с первого раза определяется ошибка там, где ее нет. Да и вообще, если я делаю чистку в течение недели, то картина может поменяться процентов на 20-30 в первый и последний день — сайты постоянно отпадают и появляются. Особенно это касается ответа 0 — сервер не отвечает. Это может быть временно.
Выравниваю сайты по колонке http код и далее пересматриваю каждый сайт с ошибкой кода – 403, 404 и пр.
Можно встретить несколько случаев, когда выпадает http код 404, 403 и др., а сайт на самом деле работает:
1. Сайт работает, все в полном порядке, но Allsubmitter неоднократно показывает ответ 404.
2. Сайт работает, просто данная страница закрыта авторизацией (портал или сайт требует сначала регистрацию, потом залогиниться) и поэтому выдает ответ 403
3. Сайт по причине модернизации или для защиты от надоевшего спама сменил адрес страницы с формой добавления, и нужно найти эту новую страницу.
По этим причинам я обычно просматриваю вручную каждый сайт, который вроде бы выдал ошибку.
C ответом сервера 0 обычно оставляю отстояться. Если через неделю по-прежнему 0 — убираю в черный список.
Пример. Сайт отдает ответ сервера 200, но не рабочий (я нашла его только потому, что просматриваю вручную еще все страницы с пустыми тайтлами):
2. Параметр Title
Я придумала свою систему, по которой фильтрую базу по значениям из Title страниц, которые могут содержать фразы об ошибки, закрытии на реконструкцию, истечении хостинга и т.д.
Чтобы найти кусок домена или слова в любом поле в базе в старом модуле «Полуавтоматическая регистрация», мы должны ввести нужное слово между знаками процента. В новом модуле V2 просто вводим кусок слова и все. Но в новом модуле нет проверки по Title (надеюсь, пока, в бета-версии), поэтому я использую старый модуль.
Некоторые значения ниже приведены еще и потому, что в базе есть англоязычная часть. Хотя и русские хостинги могут выдать тайтл на английском языке.
Внимание! Поиск чувствителен к регистру — т.е. заглавные и строчные буквы для него идут как разные.
Итак, ввожу в поиск по тайтлу одно за другим следующие значения:
%шибка%
%остинг%
%osting%
%rror%
%rorr%
%омен%
%omen%
%40%
%50%
%10%
%апрещен%
%тключ%
%акрыт%
%оступ%
%рекращен%
%евозможн%
%заблокир%
%onnect%
%обслужив%
%работае%
%конструкци%
%стек%
%ccount%
%анных%
%for sale%
%.info%
%.com%
%.net%
%.biz%
%.us%
%.ru%
%.uk%
%.ua%
%sql%
%SQL%
%оиск%
%eading%
%est%
%reat%
%omen%
%esource%
%Resources and Information%
%irectory%
%locked%
%Submit LinkWeb Directory%
%артнер%
%able%
%??%
%elcome%
%istent%
%ound%
%коро%
%сущест%
Этот список я придумала сама и он продолжает у меня постоянно пополняться.
А вот, как это выглядит в деле. Смотрите, ввожу значение между знаком процента в поле над колонкой и получается такая сортировка:
Вот еще пример. Сайт выдает ответ сервера 200, но имеет Title с ошибкой 404. Смотрим внимательно, что там — все в порядке, только сначала, до входа на сайт, нужно указать, что вы согласны с условиями сайта.
Просмотр частей базы вручную
Потом я еще просматриваю просто вручную.
Сложнее всего отследить не работящие сайты, т.к. сайт часто с виду работает, а на самом деле последние статьи, объявления или сообщения за прошлый год или регистрация временно или полностью запрещена и т.д.
В первую очередь:
— пустые Title
— подозрительные Title – на англ. языке в русскоязычной части, в виде просто названия домена или просто названия фирмы
— те, у которых 0 или совсем мало проиндексированных страниц в Яндексе или Гугле
— просто различные тематические или региональные сборки.
Кстати, пока до 8 декабря включительно ТОП База отдельно или в комплекте с лицензией Allsubmitter по Черной Пятнице с большой скидкой.
Рекомендую сегодня 2 подробных SEO-мануала, актуальных на начало 2023 года:
1. Новый SEO-учебник о том, как продвигать сайты в 2023 году - на 610 страниц - лучшее, что есть на рынке обучения среди руководств по продвижению сайтов.
"SEO Монстр Next 2022". От Dr. Max - известного автора с огромным практическим опытом. Аналогов руководству нет.
2. ТОМ 2 - все про техническую сторону SEO и аудиты сайтов - на 240 страниц.