Эта статья о том, как можно облегчить и ускорить чистку баз сайтов для размещения в интернете.
Моя ТОП База содержит в себе более 12 основных видов сайтов для бесплатного самостоятельного размещения в интернете — форумы, каталоги фирм, пресс-релизовые сайты, доски объявлений, соцсети, блоговые системы, сервисы вопросов-ответов, сервисы отзывов, каталоги сайтов, каталоги статей, «трастовые сайты» (в основном профили), рейтинги, видеохостинги, «добавить тур», «добавить акцию» и разное другое.
Имеет более 2000 подкатегорий внутри — по видам сайтов, тематикам, регионам РФ и странам СНГ, немного другие страны на русском и примерно 10% — англоязычная часть базы. Как для ручной работы — в тхт формате, так и для Allsubmitter в asd4 формате (для полуавтоматической регистрации).
Всего сейчас осталось около 12.400 сайтов — чистка идет более быстрыми темпами, чем пополнение. Хороших сайтов для бесплатного размещения не так много, как хотелось бы. Каталоги сайтов, каталоги статей и так называемые «трастовые сайты» занимают самую незначительную часть базы — несколько сотен в совокупности и рекомендуются в последнюю очередь.
База собирается полностью вручную. Автоматизация используется только частично для первичного парсинга и первичного отбора сайтов для чистки. Дальше вручную.
С каждым разом я чищу все жестче и жестче, хотя цели у моих покупателей бывают самые разные. У кого-то — трафик и продажи, у кого-то — ссылочное. Кому-то — как основное ссылочное, кому-то разбавить покупное. Кому-то ценен любой тематический сайт, кому-то нужны только с лучшими показателями. Кому-то продвинуть сателлиты, PBN или надстроить ссылочную пирамиду, кому-то — продвинуть основной сайт.
Я стараюсь подстраиваться подо все цели, но все-таки убираю все сомнительные сайты, которые вижу. Даже если выглядит как живой и может принести трафик, но по совокупности параметры не очень или явно переспамлен — убираю.
Google сейчас ужесточает требования к ссылочной массе — постоянно ужесточаю и я. Я не держу плохих или нерабочих сайтов в базе ради количества, только по недосмотру, или в периоды, когда давно не было чисток, т.к. сайты исчезают ежедневно. По-прежнему мой главный критерий — «живой сайт». Дальше покупатели, если хотят, фильтруют по другим параметрам сами, как им угодно. В помощь тот же Чектраст.
Как проходит чистка ТОП Базы
За более 10 лет работы с ТОП Базой у меня наработана большая собственная система, как быстро найти максимум неработающих сайтов.
Ведь если просматривать вручную все 13 тыс, которые есть на текущий момент (а раньше было в два-три раза больше) — это по факту просмотреть тысяч 50 страниц. Это и дорого, если делегировать, и очень-очень долго. Поэтому такую работу я проделываю частично раз в год, а в целом стараюсь концентрироваться на том, чтобы находить не рабочие сайты по разным совокупным признакам.
Делегирование, кстати, по-прежнему у меня идет с большим скрипом — все помощники, с которыми я работала, имеют в среднем 30% брака и обучать их для ощутимого изменения результата не получается. Учитывая, что некоторые тематики или регионы в ТОП Базе насчитывают всего пару сотен сайтов, такой брак достаточно ощутим. Если выкинуть много рабочих сайтов из базы — такое же количество новых найти гораздо сложнее. Хороших сайтов для бесплатного размещения гораздо меньше, чем хотелось бы. Поэтому я по-прежнему стараюсь проделывать много работы сама, либо как второй этап после помощника.
Ошибки 500, 403, 404 далеко не всегда означают, что сайт не работает — это может быть перенос страницы регистрации (и нужно найти новую, рабочую страницу), удаление данного раздела (например, форум удалили, а каталог фирм на этом домене остался). А часто это просто необходимость авторизоваться. Или полностью рабочая страница может выдавать ошибку.
Ошибка 0 — сервер не отвечает — тоже не всегда означает нерабочий сайт, часто это временный сбой хостинга во время сканирования или просто в этот день.
Поэтому все не так просто и даже частично автоматизированная чистка предусматривает минимум неделю плотной работы и тысячи ручных просмотров.
Чектраст
Один из этапов (только один из нескольких) — анализ базы в сервисе Чектраст. Есть его десктопный аналог — программа Фасттраст, от того же автора — Александра Алаева. Он у меня тоже есть, но я предпочитаю сейчас онлайн-сервис, т.к. там все гораздо проще, ничего не нужно настраивать, а стоит он дешево.
Проверить Чектрастом 13000 сайтов на несколько базовых параметров (включая ИКС) стоит всего 200 рублей и занимает около 2-х часов.
Ниже на скриншоте проверка по параметрам в Чектраст (можно выбрать и больше параметров).
Собственные параметры Чектраста — Заспамленность и Траст могут быть спорными в отдельных случаях — хороший крупный живой портал может иметь не самые лучшие характеристики именно Траста и Заспамленности (по Чектрасту), но иметь высокие другие — в частности, поисковый трафик по релевантным запросам, иметь достаточно высокий ИКС, быть живым и активным.
Особенно плохо в этом плане с Заспамленностью. Любой хороший каталог фирм, пресс-релизовый сайт, форум с активными прямыми ссылками будет считаться заспамленным по этим параметрам, но на мой взгляд полезен для размещения.
Поэтому я чищу только по самым крайним границам этих параметров, остальное проверяется мной вживую или по совокупности разных параметров.
То, что Чектраст маркирует, как «Плохой» далеко не всегда можно отнести к такой категории, особенно, если речь про живые, активные, посещаемые тематические сайты, где полезно засветиться и получить целевых посетителей или если речь про разбавление ссылочной массы естественными ссылками.
"SEO Монстр Next 2022". От Dr. Max - известного автора с огромным практическим опытом. Аналогов руководству нет.
То, что он назовет «Отличным» может быть мертвым сайтом.
ИКС Яндекса показал себя как хороший параметр для чистки баз. Когда я проверяю вручную все сайты с низким или высоким ИКС, вижу, что он действительно достаточно хорошо отображает качество сайта и наличие трафика.
Каждый раз при чистке удаляю многие сайты, где ИКС = 0 и 10. Но все равно всегда все смотрю вручную — где-то бывает живой хороший сайт, но еще не успели ему дать ИКС, или он не успел подняться. Удаляю траст 0 по Чектрасту и сильно заспамленные.
Есть много бесплатных онлайн-сервисов для массового определения ИКС Яндекса (часть можно найти у меня в обзоре по ссылке, но есть и другие).
Но если у вас есть достаточно свежий Allsubmitter (хотя бы годовалой давности), то с ним вы можете проверить базы удобно и массово и на ИКС, и на другие параметры.
Allsubmitter
С Allsubmitter проверить такое количество только на ИКС занимает целый день, а то и около суток. Хотя и почти бесплатно — оплачиваете только стоимость каптчи в Антигейт.
Вот как выглядит проверка по ИКС в Allsubmitter — на скриншоте ниже. Это только в новом модуле «Полуавтоматическая регистрация V2».
В новом есть и несколько других полезных для чистки проверок:
Чтобы проверить любой параметр у сайтов, выделяем в разделе «База» (в модуле «Полуавтоматическая регистрация V2») сайты в нужной подкатегории и нажимаем сверху на значок «Икс», потом, когда спросит про планировщик, выбираем «Нет» — он пока тоже временно еще не работает корректно (т.к. это Бета-версия).
Потом, когда параметры будут проверены, мы можем, например, перенести сайты с нужными параметрами в отдельную подкатегорию в Базе и работать только по ней. Или вручную проверить все сайты с низкими параметрами (как это делаю я во время чисток).
Но в новом модуле Allsubmitter «Полуавтоматическая регистрация V 2» нет проверки по Title.
Поэтому содержание Title сайтов одновременно с ответом сервера (HTTP-код) я проверяю в старом модуле.
Вот старый и новый модули в меню Allsubmitter:
Вот проверка параметров в разделе «База каталогов» в старом модуле «Полуавтоматическая регистрация»:
Ниже покажу, как это выглядит в Title, и что я там потом проверяю.
1. Ответ сервера (HTTP код)
Выделяю нужную часть базы, выделяю все сайты, перехожу в левой колонке в пункт «Определить параметры сайтов». И выбираю для проверки параметр http код. Только не прогоняйте сразу большое количество сайтов. Лучше всего партиями по 1-3 тыс. сайтов за раз. Иначе программа может зависнуть (по крайней мере у меня бывает).
Основной ответ, успешный — 200. Но (!) далеко не всегда сайт при этом рабочий. Другие, наверняка ошибочные – 403, 404, 500, 502, 12007, 12039 и прочие. Но и это тоже далеко не всегда нерабочие страницы.
Прогоняю на 2-3 раза, т.к. иногда бывает по какой-то причине с первого раза определяется ошибка там, где ее нет. Да и вообще, если я делаю чистку в течение недели, то картина может поменяться процентов на 20-30 в первый и последний день — сайты постоянно отпадают и появляются. Особенно это касается ответа 0 — сервер не отвечает. Это может быть временно.
Выравниваю сайты по колонке http код и далее пересматриваю каждый сайт с ошибкой кода – 403, 404 и пр.
Можно встретить несколько случаев, когда выпадает http код 404, 403 и др., а сайт на самом деле работает:
1. Сайт работает, все в полном порядке, но Allsubmitter неоднократно показывает ответ 404.
2. Сайт работает, просто данная страница закрыта авторизацией (портал или сайт требует сначала регистрацию, потом залогиниться) и поэтому выдает ответ 403
3. Сайт по причине модернизации или для защиты от надоевшего спама сменил адрес страницы с формой добавления, и нужно найти эту новую страницу.
По этим причинам я обычно просматриваю вручную каждый сайт, который вроде бы выдал ошибку.
C ответом сервера 0 обычно оставляю отстояться. Если через неделю по-прежнему 0 — убираю в черный список.
Пример. Сайт отдает ответ сервера 200, но не рабочий (я нашла его только потому, что просматриваю вручную еще все страницы с пустыми тайтлами):
2. Параметр Title
Я придумала свою систему, по которой фильтрую базу по значениям из Title страниц, которые могут содержать фразы об ошибки, закрытии на реконструкцию, истечении хостинга и т.д.
Чтобы найти кусок домена или слова в любом поле в базе в старом модуле «Полуавтоматическая регистрация», мы должны ввести нужное слово между знаками процента. В новом модуле V2 просто вводим кусок слова и все. Но в новом модуле нет проверки по Title (надеюсь, пока, в бета-версии), поэтому я использую старый модуль.
Некоторые значения ниже приведены еще и потому, что в базе есть англоязычная часть. Хотя и русские хостинги могут выдать тайтл на английском языке.
Внимание! Поиск чувствителен к регистру — т.е. заглавные и строчные буквы для него идут как разные.
Итак, ввожу в поиск по тайтлу одно за другим следующие значения:
%шибка%
%остинг%
%osting%
%rror%
%rorr%
%омен%
%omen%
%40%
%50%
%10%
%апрещен%
%тключ%
%акрыт%
%оступ%
%рекращен%
%евозможн%
%заблокир%
%onnect%
%обслужив%
%работае%
%конструкци%
%стек%
%ccount%
%анных%
%for sale%
%.info%
%.com%
%.net%
%.biz%
%.us%
%.ru%
%.uk%
%.ua%
%sql%
%SQL%
%оиск%
%eading%
%est%
%reat%
%omen%
%esource%
%Resources and Information%
%irectory%
%locked%
%Submit LinkWeb Directory%
%артнер%
%able%
%??%
%elcome%
%istent%
%ound%
%коро%
%сущест%
Этот список я придумала сама и он продолжает у меня постоянно пополняться.
А вот, как это выглядит в деле. Смотрите, ввожу значение между знаком процента в поле над колонкой и получается такая сортировка:
Вот еще пример. Сайт выдает ответ сервера 200, но имеет Title с ошибкой 404. Смотрим внимательно, что там — все в порядке, только сначала, до входа на сайт, нужно указать, что вы согласны с условиями сайта.
Просмотр частей базы вручную
Потом я еще просматриваю просто вручную.
Сложнее всего отследить не работящие сайты, т.к. сайт часто с виду работает, а на самом деле последние статьи, объявления или сообщения за прошлый год или регистрация временно или полностью запрещена и т.д.
В первую очередь:
— пустые Title
— подозрительные Title – на англ. языке в русскоязычной части, в виде просто названия домена или просто названия фирмы
— те, у которых 0 или совсем мало проиндексированных страниц в Яндексе или Гугле
— просто различные тематические или региональные сборки.
Кстати, пока до 8 декабря включительно ТОП База отдельно или в комплекте с лицензией Allsubmitter по Черной Пятнице с большой скидкой.
Рекомендую сегодня:
Новый SEO-учебник о том, как продвигать сайты в 2022 году - на 610 страниц от 4 мая - лучшее, что есть на рынке обучения среди руководств по продвижению сайтов.
"SEO Монстр Next 2022". От Dr. Max - известного автора с огромным практическим опытом. Аналогов руководству нет.
Купить и сразу скачать SEO-руководство можно тут.