SEO-аудит SEO-программы Лучшие статьи других авторов

Как проводить анализ журналов доступа к сайту (логов) с SEO-целями

Анна Ященко Dr.Max, SEO, SEO-аудит, SEO-софт, гостевые статьи Dr.Max, как продвинуть сайт самостоятельно, Новичкам в SEO, Профессионалам в SEO, технический аудит сайта, Уже опытным SEO-шникам Нет комментариев 9349 просмотров

Еще одна отличная практическая статья — гостевая, для моего блога от Dr.Max (автора учебника «SEO-Монстр 2020» и других).

Другие гостевые статьи Dr.Max можно прочитать тут.

Интервью с ним можно почитать у меня в блоге тут. Рекомендую, увлекательно и полезно.

Как проводить анализ журналов доступа к сайту (логов) с SEO-целями - гостевая статья от Dr Max

Анализ журналов доступа к сайту с точки зрения SEO

Анализ лог файлов сайта (или по-другому – журналов доступа) с точки зрения SEO является крайне полезным занятием, дополняющим технический аудит сайта и предоставляющий массу полезных сведений, необходимых чтобы понять не только техническое состояние сайта, но и отношение поисковых систем (далее ПС) к нему.

Перечень решаемых проблем при анализе журналов доступа крайне обширен.

С его помощью можно:

• Определить URL, сканируемые ботами ПС. Тем самым можно понять, какие страницы сайта сканируются ботами, и как часто это происходит.

• Для того же Google можем понять, какие именно боты чаще сканируют сайт (мобильные, десктопные и т.д.). Кроме того можем найти ошибки, например, присущие мобильной версии сайта, при их отсутствии в десктопной. Ни один эмулятор сканирования сайта (тот же пресловутый Scream Frog SEO Spider) вам это не покажет.

• Узнать частоту сканирования тем или иным ботом. Можно определить какие страницы боты любят больше, какие меньше и сколько страниц в день всего сканирует тот или иной паук. Тем самым мы наглядно видим не только бюджет сканирования, но и его динамику, в зависимости от действий, предпринимаемых при продвижении сайта.

• Можем найти ошибки на сайте. Анализ кодов ответов страниц достоверно покажет битые страницы, ссылки на сайте. Так мы можем посмотреть на сайт глазами самих ботов.

• Можем проанализировать все 3XX перенаправления. Этот анализ позволит избавится от ненужных перенаправлений, оставшихся, например, от смены структуры URL. В свою очередь это поможет сэкономить бюджет сканирования и повысить доверие ПС к сайту. При этом 3XX переадресации могут заметно отличаться от представленных в браузере или при эмуляции сканирования, например Scream Frog SEO Spider.

• Устраняя найденные ошибки – улучшаем бюджет сканирования сайта.

• Можем найти избыточно большие и/или излишне медленные страницы сайта. Как известно, скорость доступа к сайту является одним из факторов ранжирования. Устранив проблемы с медленными или излишне громоздкими страницами, мы улучшаем ранжирование сайта.

• Определить страницы- потеряшки. Если сопоставить страницы, которые боты отсканировали с текущей структурой сайта, то легко найти страницы – сироты, т.е. те страницы сайта, которые заведомо никогда не будут отсканированы, не попадут в выдачу органики ПС.

Итак, нет никаких причин, чтобы не заняться анализом журнала доступа.

Эта абсолютно бесплатная и простая процедура иногда может резко поднять качество сайта, улучшить его ранжирование, и помочь вам в достижении ТОПов выдачи.

Прежде всего, нам нужны log-файлы за достаточно длительный период, например две недели. Чем больше изучаемый сайт, тем за более длительный срок нужны log-файлы.

На отдельных хостингах журналы доступа генерируются по умолчанию, на других их нужно включать принудительно.

Например, так это выглядит у Beget:

так это выглядят журналы доступа к сайту (логи) у Beget

Включив логирование доступа к сайту, получаем ежедневно по лог-файлу, которые скачиваем и сохраняем к себе на компьютер. У иных хостеров логирование может настраиваться по иному. Читайте хелпы своих хостеров.

Сырой log-файл представляет собой мешанину упорядоченных данных, которые можно, конечно проанализировать в том же Excel. Вот так выглядит кусок журнала:

Сырой log-файл представляет собой мешанину упорядоченных данных

Поскольку проблема анализа log-файлов встала перед вебмастерами очень давно, за десятилетия было написано немало программ. Вы можете воспользоваться любыми из платных или бесплатных вариантов, например: Web Log Storming, Sawmill, Web Log Explorer, WebLog Expert, Log Analyzer: Trends, Log Viewer Plus и т.д. и т.п. Программ десятки, если не сотни, причем есть как десктопные, так и серверные варианты.

Поскольку нам не нужно анализировать логи юзеров, а задача – анализ логов ботов ПС, то достаточно удобной и отвечающей большинству задач является изделие от Screaming Frog — Log File Analyzer.

Скачать его можно здесь: https://www.screamingfrog.co.uk/log-file-analyser/

Ключик можно или купить или, если позволяет совесть, легко найти в Интернете.

Создаем новый проект и добавляем всех необходимых для анализа ботов:

Создаем новый проект и добавляем всех необходимых для анализа ботов

Если сайт очень большой, и вы хотите кушать медведя по кускам – то можно анализировать отдельные составляющие сайта.

можно анализировать отдельные составляющие сайта

Импортировав для примера логи за 5 дней, получаем следующую картину:

Импортировав для примера логи за 5 дней, получаем следующую картину

К сожалению, 5 дней – это очень мало и не дает полную картину творящегося с сайтом, но для образовательных целей – этого достаточно.

Screaming Frog Log File Analyzer позволяет подгрузить структуру сайта, собранную в Screaming Frog SEO Spider, что мы немедленно и сделаем. Теперь у нас есть урлы, которые попали в логи и урлы, собранные спайдером.

Давайте быстро разберемся с основными функциями Log File Analyzer:

разберемся с основными функциями Log File Analyzer

1 – Выбор бота ПС из набора

2 – Выбор периода анализа

3 – Панель инструментов.

4 – Выбор из наборов данных:

Log File – данные из журналов доступа
Matched witch URL data – URL имеющиеся и в log файле и в загруженной структуре из SEO Spider
Not in Url Data – отсутствующие в загруженной структуре из SEO Spider
Not in Log File – отсутствующие URL в log файле

5 – Выбор URL для анализа

6 — Закладка полных данных по выбранному URL

Оперируя этими инструментами можно найти значительное число неполадок и нарушений, а самое главное – путей оптимизации сайта.

Ну вот, например, поиск страниц, которые нет нужды обходить ботам, а они это проделывают, тратя тем самым бюджет сканирования.

Используем инструмент URLs(1), закладку Not in Url Data (2) и сортируем По столбцу Last Response Code.

Что интересно, о том что спайдер Гугла (на скрине стоит All Bots – но нужно выставить Google Bots) ходит по «закрытым» URL мы можем узнать, только анализируя логи.

на скрине стоит All Bots – но нужно выставить Google Bots

Как мы видим, Google зашел на https://drmax.su/page/2 , что нам не нужно, тем самым потратив бюджет сканирования на бесполезную страницу, которая закрыта в robots.txt в секции Google (1) директивой Disallow: /page/

анализ логов сайта

Мы прекрасно знаем, что с точки зрения Google (но не Яндекса), robots.txt не предназначен для запрета индексирования (и попадания в выдачу) любого контента сайта.

https://support.google.com/webmasters/answer/6062608?hl=ru

анализ логов сайта

Значит, на странице https://drmax.su/page/2 неправильно прописан метатег robots. Смотрим исходный код страницы:

неправильно прописан метатег robots. Смотрим исходный код страницы

Видим, что метатега robots нет и в помине, хотя есть canonical на главную. Однако, canonical – это всего лишь рекомендация (точно так же как и с robots.txt), а не запрет индексации страниц и при наличии, например, внешних ссылок на страницу https://drmax.su/page/2 — она с большой степенью вероятности будет проиндексирована. Поэтому, необходимо прописать метатег robots и указать в нем noindex для этой страницы.

Анализируя подобным образом данные, предоставленные программой. мы находим все узкие места.

Желательно, предварительно ознакомиться с книгой «Аудит сайта своими руками», чтобы понять на что стоит смотреть и что является ошибкой.

Пример попроще – ищем самые «тяжелые» страницы.

Анализ логов - ищем самые тяжелые страницы сайта

Для этого просто сортируем данные по столбцу «Average Bytes». Соответственно, отсортированные файлы нужно будет изучить на предмет уменьшения их «веса».

Перейдя в закладку «Response Code» (1) мы можем просмотреть все ошибки сайта (2), при этом опять можно отбирать источники данных (3)

Перейдя в закладку Response Code, мы можем просмотреть все ошибки сайта

Например, вот такая есть ошибка у меня на сайте, которая выявляется только анализом log-файла.

Открываем закладку «Response Code» (1), ошибки 4xx (2), данные имеющиеся только в лог-файле (3) для мобильного бота Гугла (4).

Здесь мы видим, что на страницах (6):

https://drmax.su/book-audit.html
https://drmax.su/category/rukovodstva
https://drmax.su/download

Есть некое изображение

https://drmax.su/wp-content/uploads/2018/06/cover2@2x.png

ссылка на которое появляется только в мобильной версии сайта (4) и оно «битое».

Причем изображение https://drmax.su/wp-content/uploads/2018/06/cover2.png — существует

анализ логов

Эта ошибка в моем шаблоне возникла после экспериментов с Retina версией изображений – т.е. с изображениями повышенной плотности для разных там Apple и иных устройств с огромными экранами и высокой плотностью точек на них. Теперь куча бюджета сканирования тратятся на файлы, которых у меня заведомо нет.

Ошибка известна, требует исправления.

Возможности программы поистине безграничны.

Например, на больших сайтах вы можете использовать в качестве пары набора данных Sitemap и лог-фал, собранный за 2-3 месяца. Потом можно посмотреть, какие страницы из Sitemap не индексируются ботами (переключатель в Not in Log File).

Потом вы должны проанализировать эти найденные страницы и понять, что тут происходит – то ли разрушена структура ссылок (робот просто не доходит до этих страниц – но это редко, см далее…), либо эти страницы являются Thin Content и требуют радикального к себе отношения.

См статью «Аудит контента и обрезка ядовитого содержания».

Роботы иногда попадают в «ловушки», когда крупные сайты имеют развитую систему фильтров и крайне непродуманную систему навигации. Тогда бюджет сканирования может быть исчерпан, когда робот запутается в миллионах страницах с генерируемыми URL-параметрами. Все это тоже отслеживается анализом лог-файла за длительный период.

Рекомендую вам потратить 2-3 дня на изучение программы и собственного сайта и вы обнаружите удивительно глупые ошибки, исправив которые, вы несомненно повысите качество сайта и поможете продвинуть его в ТОП.

Автор статьи — Dr.Max.

Напоминаю, что 4 дня — с 16 по 19 июля 2019 года действует очень большая скидка 50% на лучший SEO-учебник от автора этой статьи.

Смотрите содержание практического руководства «SEO-Монстр 2020» на 700 страниц здесь.

Берите прямо сейчас! Этот учебник должен прочитать каждый, у кого есть сайт или кто продвигает любой сайт.

Dr. Max

Об авторе:

В SEO 13 лет, Опыт работы с буржуями – 7 лет. Крупнейший буржуйский клиент – с годовым оборотом интернет портала в $800.000.000 в год. Работа в 98% под Гугл.

Хотите больше знать об авторе? Прочитайте у меня в блоге интервью с Dr.Max — о SEO и о жизни.

Можете почитать, например, его ответы в экспертных опросах у меня на сайте:

— Опрос №2 «Разница в продвижении под Яндекс и Гугл»
— Опрос №3. «Фильтры поисковых систем в 2018 году»

и ряд его гостевых статей у меня в блоге:

— «Показатель отказов: исследование, сегментация и оптимизация метрики Bounce Rate»
— »Эволюция SEO текстов к 2018 году»

Как купить учебник «SEO-Монстр 2020» со скидкой 50%:

У меня в блоге на этот учебник есть сейчас есть эксклюзивная БОЛЬШАЯ, 50% скидка:

~~Вместо 95$~~ (текущая стоимость учебника на сайте Dr.Max), сейчас здесь у меня его можно приобрести со СКИДКОЙ 48 долларов за

47 у.е. или 3100 рублей.

Скидка действует только с 16 по 19 июля 2019 года.

Оплата разными вариантами.
Высылается сразу, на автомате.

Берите, и сразу же приступайте к чтению и внедрению написанного!

Сюда входит поддержка автора (можно задавать ему вопросы). Вы становитесь обычным покупателем Dr.Max, все данные передаются ему, просто получаете скидку.

Купить без всяких промо-кодов, просто сразу со скидкой 50%:

Если какие вопросы — пишите мне по контактам:

Skype: topbase.ru
E-mail: topbase@yandex.ru
Анна

Об авторе

Анна Ященко

SEO-специалист с 15-летним стажем, автор ТОП Базы - лучшей базы для самостоятельного бесплатного продвижения сайтов. Продаю любые лицензионные SEO-программы со скидками. Держу руку на пульсе лучшего обучения по продвижению в интернете. В общем, слежу за всеми тенденциями в SEO и некоторых направлениях интернет-маркетинга. Бесплатно помогаю и консультирую.

Анализ журналов доступа к сайту с точки зрения SEO

Как купить учебник «SEO-Монстр 2020» со скидкой 50%:

Об авторе

Анна Ященко

Похожие записи