• SEO
    • SEO-аудит
    • Семантическое ядро
    • Внутренняя оптимизация
    • Ссылочное продвижение
    • Поведенческие факторы
    • Фильтры поисковых систем
    • Веб-аналитика
  • Обучение SEO
    • Рекомендуемые SEO-курсы
    • Лучшие ближайшие мероприятия
    • Бесплатные видео-записи
    • Бесплатные SEO-курсы
    • Лучшие статьи других авторов
  • Программы, сервисы и базы
    • SEO-программы
    • SMM-программы
  • Личное
    • Полезно
    • Саморазвитие
    • Путешествия и жизнь
  • Другие направления
    • Интернет-магазины
    • Заработок в интернете
    • SMM — соцсети
    • Создание сайтов
    • Контекстная реклама
  • Интервью
  • Только мои статьи
  • Обо мне, о проекте, контакты
  • Новичкам в SEO
  • Уже опытным SEO-шникам
  • Профессионалам в SEO
  • SEO-скидки на все
  • Обо мне, о проекте, контакты
  • Новичкам в SEO
  • Уже опытным SEO-шникам
  • Профессионалам в SEO
  • SEO-скидки на все
SEO-блог Анны Ященко Сайт для тех, кто хочет научиться самостоятельно и результативно продвигать в интернете
  • SEO
    • SEO-аудит
    • Семантическое ядро
    • Внутренняя оптимизация
    • Ссылочное продвижение
    • Поведенческие факторы
    • Фильтры поисковых систем
    • Веб-аналитика
  • Обучение SEO
    • Рекомендуемые SEO-курсы
    • Лучшие ближайшие мероприятия
    • Бесплатные видео-записи
    • Бесплатные SEO-курсы
    • Лучшие статьи других авторов
  • Программы, сервисы и базы
    • SEO-программы
    • SMM-программы
  • Личное
    • Полезно
    • Саморазвитие
    • Путешествия и жизнь
  • Другие направления
    • Интернет-магазины
    • Заработок в интернете
    • SMM — соцсети
    • Создание сайтов
    • Контекстная реклама
  • Интервью
  • Только мои статьи
SEO-аудитSEO-программыЛучшие статьи других авторов

Как проводить анализ журналов доступа к сайту (логов) с SEO-целями

Анна Ященко Dr.Max, SEO, SEO-аудит, SEO-софт, гостевые статьи Dr.Max, как продвинуть сайт самостоятельно, Новичкам в SEO, Профессионалам в SEO, технический аудит сайта, Уже опытным SEO-шникам Нет комментариев 9558 просмотров
Как проводить анализ журналов доступа к сайту (логов) с SEO-целями

Еще одна отличная практическая статья — гостевая, для моего блога от Dr.Max (автора учебника «SEO-Монстр 2020» и других).

Другие гостевые статьи Dr.Max можно прочитать тут.

Интервью с ним можно почитать у меня в блоге тут. Рекомендую, увлекательно и полезно.

 

Как проводить анализ журналов доступа к сайту (логов) с SEO-целями - гостевая статья от Dr Max

 

Анализ журналов доступа к сайту с точки зрения SEO

Анализ лог файлов сайта (или по-другому – журналов доступа) с точки зрения SEO является крайне полезным занятием, дополняющим технический аудит сайта и предоставляющий массу полезных сведений, необходимых чтобы понять не только техническое состояние сайта, но и отношение поисковых систем (далее ПС) к нему.

Перечень решаемых проблем при анализе журналов доступа крайне обширен.

С его помощью можно:

• Определить URL, сканируемые ботами ПС. Тем самым можно понять, какие страницы сайта сканируются ботами, и как часто это происходит.

• Для того же Google можем понять, какие именно боты чаще сканируют сайт (мобильные, десктопные и т.д.). Кроме того можем найти ошибки, например, присущие мобильной версии сайта, при их отсутствии в десктопной. Ни один эмулятор сканирования сайта (тот же пресловутый Scream Frog SEO Spider) вам это не покажет.

• Узнать частоту сканирования тем или иным ботом. Можно определить какие страницы боты любят больше, какие меньше и сколько страниц в день всего сканирует тот или иной паук. Тем самым мы наглядно видим не только бюджет сканирования, но и его динамику, в зависимости от действий, предпринимаемых при продвижении сайта.

• Можем найти ошибки на сайте. Анализ кодов ответов страниц достоверно покажет битые страницы, ссылки на сайте. Так мы можем посмотреть на сайт глазами самих ботов.

• Можем проанализировать все 3XX перенаправления. Этот анализ позволит избавится от ненужных перенаправлений, оставшихся, например, от смены структуры URL. В свою очередь это поможет сэкономить бюджет сканирования и повысить доверие ПС к сайту. При этом 3XX переадресации могут заметно отличаться от представленных в браузере или при эмуляции сканирования, например Scream Frog SEO Spider.

• Устраняя найденные ошибки – улучшаем бюджет сканирования сайта.

• Можем найти избыточно большие и/или излишне медленные страницы сайта. Как известно, скорость доступа к сайту является одним из факторов ранжирования. Устранив проблемы с медленными или излишне громоздкими страницами, мы улучшаем ранжирование сайта.

• Определить страницы- потеряшки. Если сопоставить страницы, которые боты отсканировали с текущей структурой сайта, то легко найти страницы – сироты, т.е. те страницы сайта, которые заведомо никогда не будут отсканированы, не попадут в выдачу органики ПС.

Итак, нет никаких причин, чтобы не заняться анализом журнала доступа.

Эта абсолютно бесплатная и простая процедура иногда может резко поднять качество сайта, улучшить его ранжирование, и помочь вам в достижении ТОПов выдачи.

Прежде всего, нам нужны log-файлы за достаточно длительный период, например две недели. Чем больше изучаемый сайт, тем за более длительный срок нужны log-файлы.

На отдельных хостингах журналы доступа генерируются по умолчанию, на других их нужно включать принудительно.

Например, так это выглядит у Beget:

 
так это выглядят журналы доступа к сайту (логи) у Beget

 
Включив логирование доступа к сайту, получаем ежедневно по лог-файлу, которые скачиваем и сохраняем к себе на компьютер. У иных хостеров логирование может настраиваться по иному. Читайте хелпы своих хостеров.

Сырой log-файл представляет собой мешанину упорядоченных данных, которые можно, конечно проанализировать в том же Excel. Вот так выглядит кусок журнала:

 
Сырой log-файл представляет собой мешанину упорядоченных данных

 
Поскольку проблема анализа log-файлов встала перед вебмастерами очень давно, за десятилетия было написано немало программ. Вы можете воспользоваться любыми из платных или бесплатных вариантов, например: Web Log Storming, Sawmill, Web Log Explorer, WebLog Expert, Log Analyzer: Trends, Log Viewer Plus и т.д. и т.п. Программ десятки, если не сотни, причем есть как десктопные, так и серверные варианты.

Поскольку нам не нужно анализировать логи юзеров, а задача – анализ логов ботов ПС, то достаточно удобной и отвечающей большинству задач является изделие от Screaming Frog — Log File Analyzer.

Скачать его можно здесь: https://www.screamingfrog.co.uk/log-file-analyser/

Ключик можно или купить или, если позволяет совесть, легко найти в Интернете.

Создаем новый проект и добавляем всех необходимых для анализа ботов:

 
Создаем новый проект и добавляем всех необходимых для анализа ботов

 
Если сайт очень большой, и вы хотите кушать медведя по кускам – то можно анализировать отдельные составляющие сайта.

 
можно анализировать отдельные составляющие сайта

 

Импортировав для примера логи за 5 дней, получаем следующую картину:

 
Импортировав для примера логи за 5 дней, получаем следующую картину

 
К сожалению, 5 дней – это очень мало и не дает полную картину творящегося с сайтом, но для образовательных целей – этого достаточно.

Screaming Frog Log File Analyzer позволяет подгрузить структуру сайта, собранную в Screaming Frog SEO Spider, что мы немедленно и сделаем. Теперь у нас есть урлы, которые попали в логи и урлы, собранные спайдером.

Давайте быстро разберемся с основными функциями Log File Analyzer:

 
разберемся с основными функциями Log  File Analyzer

 
1 – Выбор бота ПС из набора

2 – Выбор периода анализа

3 – Панель инструментов.

4 – Выбор из наборов данных:

Log File – данные из журналов доступа
Matched witch URL data – URL имеющиеся и в log файле и в загруженной структуре из SEO Spider
Not in Url Data – отсутствующие в загруженной структуре из SEO Spider
Not in Log File – отсутствующие URL в log файле

5 – Выбор URL для анализа

6 — Закладка полных данных по выбранному URL

 
Оперируя этими инструментами можно найти значительное число неполадок и нарушений, а самое главное – путей оптимизации сайта.

 
Ну вот, например, поиск страниц, которые нет нужды обходить ботам, а они это проделывают, тратя тем самым бюджет сканирования.

Используем инструмент URLs(1), закладку Not in Url Data (2) и сортируем По столбцу Last Response Code.

Что интересно, о том что спайдер Гугла (на скрине стоит All Bots – но нужно выставить Google Bots) ходит по «закрытым» URL мы можем узнать, только анализируя логи.

 
на скрине стоит All Bots – но нужно выставить Google Bots

 
Как мы видим, Google зашел на https://drmax.su/page/2 , что нам не нужно, тем самым потратив бюджет сканирования на бесполезную страницу, которая закрыта в robots.txt в секции Google (1) директивой Disallow: /page/

 
анализ логов сайта

 

Мы прекрасно знаем, что с точки зрения Google (но не Яндекса), robots.txt не предназначен для запрета индексирования (и попадания в выдачу) любого контента сайта.

https://support.google.com/webmasters/answer/6062608?hl=ru

 
анализ логов сайта

 
Значит, на странице https://drmax.su/page/2 неправильно прописан метатег robots. Смотрим исходный код страницы:

 
неправильно прописан метатег robots. Смотрим исходный код страницы

 

Видим, что метатега robots нет и в помине, хотя есть canonical на главную. Однако, canonical – это всего лишь рекомендация (точно так же как и с robots.txt), а не запрет индексации страниц и при наличии, например, внешних ссылок на страницу https://drmax.su/page/2 — она с большой степенью вероятности будет проиндексирована. Поэтому, необходимо прописать метатег robots и указать в нем noindex для этой страницы.

Анализируя подобным образом данные, предоставленные программой. мы находим все узкие места.

Желательно, предварительно ознакомиться с книгой «Аудит сайта своими руками», чтобы понять на что стоит смотреть и что является ошибкой.

 
Пример попроще – ищем самые «тяжелые» страницы.

 
Анализ логов - ищем самые тяжелые страницы сайта

 

Для этого просто сортируем данные по столбцу «Average Bytes». Соответственно, отсортированные файлы нужно будет изучить на предмет уменьшения их «веса».

Перейдя в закладку «Response Code» (1) мы можем просмотреть все ошибки сайта (2), при этом опять можно отбирать источники данных (3)

 
Перейдя в закладку Response Code,  мы можем просмотреть все ошибки сайта
 

Например, вот такая есть ошибка у меня на сайте, которая выявляется только анализом log-файла.

Открываем закладку «Response Code» (1), ошибки 4xx (2), данные имеющиеся только в лог-файле (3) для мобильного бота Гугла (4).

Здесь мы видим, что на страницах (6):

https://drmax.su/book-audit.html
https://drmax.su/category/rukovodstva
https://drmax.su/download

Есть некое изображение

https://drmax.su/wp-content/uploads/2018/06/cover2@2x.png

ссылка на которое появляется только в мобильной версии сайта (4) и оно «битое».

Причем изображение https://drmax.su/wp-content/uploads/2018/06/cover2.png — существует

анализ логов

 

Эта ошибка в моем шаблоне возникла после экспериментов с Retina версией изображений – т.е. с изображениями повышенной плотности для разных там Apple и иных устройств с огромными экранами и высокой плотностью точек на них. Теперь куча бюджета сканирования тратятся на файлы, которых у меня заведомо нет.

Ошибка известна, требует исправления.

 
Возможности программы поистине безграничны.

Например, на больших сайтах вы можете использовать в качестве пары набора данных Sitemap и лог-фал, собранный за 2-3 месяца. Потом можно посмотреть, какие страницы из Sitemap не индексируются ботами (переключатель в Not in Log File).

Потом вы должны проанализировать эти найденные страницы и понять, что тут происходит – то ли разрушена структура ссылок (робот просто не доходит до этих страниц – но это редко, см далее…), либо эти страницы являются Thin Content и требуют радикального к себе отношения.

См статью «Аудит контента и обрезка ядовитого содержания».

Роботы иногда попадают в «ловушки», когда крупные сайты имеют развитую систему фильтров и крайне непродуманную систему навигации. Тогда бюджет сканирования может быть исчерпан, когда робот запутается в миллионах страницах с генерируемыми URL-параметрами. Все это тоже отслеживается анализом лог-файла за длительный период.

Рекомендую вам потратить 2-3 дня на изучение программы и собственного сайта и вы обнаружите удивительно глупые ошибки, исправив которые, вы несомненно повысите качество сайта и поможете продвинуть его в ТОП.

Автор статьи — Dr.Max.

 

Напоминаю, что 4 дня — с 16 по 19 июля 2019 года действует очень большая скидка 50% на лучший SEO-учебник от автора этой статьи.

Смотрите содержание практического руководства «SEO-Монстр 2020» на 700 страниц здесь.

Берите прямо сейчас! Этот учебник должен прочитать каждый, у кого есть сайт или кто продвигает любой сайт.

 

Dr Max - автор учебников SEO-Монстр, SEO-Гуру
Dr. Max

Об авторе:

В SEO 13 лет, Опыт работы с буржуями – 7 лет. Крупнейший буржуйский клиент – с годовым оборотом интернет портала в $800.000.000 в год. Работа в 98% под Гугл.

Хотите больше знать об авторе? Прочитайте у меня в блоге интервью с Dr.Max — о SEO и о жизни.

 
Можете почитать, например, его ответы в экспертных опросах у меня на сайте:

— Опрос №2 «Разница в продвижении под Яндекс и Гугл»
— Опрос №3. «Фильтры поисковых систем в 2018 году»

и ряд его гостевых статей у меня в блоге:

— «Показатель отказов: исследование, сегментация и оптимизация метрики Bounce Rate»
— »Эволюция SEO текстов к 2018 году»

 

Как купить учебник «SEO-Монстр 2020» со скидкой 50%:

 

У меня в блоге на этот учебник есть сейчас есть эксклюзивная БОЛЬШАЯ, 50% скидка:

Вместо 95$ (текущая стоимость учебника на сайте Dr.Max), сейчас здесь у меня его можно приобрести со СКИДКОЙ 48 долларов за

47 у.е. или 3100 рублей.

Скидка действует только с 16 по 19 июля 2019 года.

Оплата разными вариантами.
Высылается сразу, на автомате.

Берите, и сразу же приступайте к чтению и внедрению написанного!

Сюда входит поддержка автора (можно задавать ему вопросы). Вы становитесь обычным покупателем Dr.Max, все данные передаются ему, просто получаете скидку.

Купить без всяких промо-кодов, просто сразу со скидкой 50%:

 

 
Если какие вопросы — пишите мне по контактам:

Skype: topbase.ru
E-mail: topbase@yandex.ru
Анна

Предыдущая статья Продвижение англоязычных сайтов — где в Рунете обучиться бесплатно и платно?
Следующая статья Как я работаю с блогом для улучшения его видимости в поиске

Об авторе

Анна Ященко

SEO-специалист с 15-летним стажем, автор ТОП Базы - лучшей базы для самостоятельного бесплатного продвижения сайтов. Продаю любые лицензионные SEO-программы со скидками. Держу руку на пульсе лучшего обучения по продвижению в интернете. В общем, слежу за всеми тенденциями в SEO и некоторых направлениях интернет-маркетинга. Бесплатно помогаю и консультирую.

Похожие записи

  • Руководство «SEO-Монстр NEXT. Том 2. Технические вопросы продвижения и аудита сайтов» (декабрь 2022)

    15 декабря, 2022
  • Управление SEO-проектом: 7 самых важных моментов! Стратегия, чек-листы и рабочие шаблоны.

    24 августа, 2021
  • Evergreen: как получать много трафика на сайт из «неизменно актуального контента»

    11 марта, 2021

Присоединяйтесь в соцсетях:

SEO-Учебник Нового поколения 2026

Учебник «Доказательное SEO 2026 + Введение в Промптоведение (ИИ)» — на 470 страниц — СКИДКА 25% только сейчас! 

Самый фундаментальный труд по SEO, «от и до», никакой воды, много скриншотов и SEO-хаков. От известного автора с очень большим опытом.

Новинка доказательного SEO, которую ждали годами – перевернет ваше понимание продвижения в Google!

Аналогов нет даже близко – это SEO-учебник Нового Поколения. Это титанический труд, где каждое утверждение ВПЕРВЫЕ подкреплено реальными данными:

— из утечек Google 2024,

— и многолетних судебных слушаний против Google (2022-2025 годов).

Самый крутой общий учебник по SEO (2022):

Учебник «SEO-МОНСТР NEXT 2022» — на 610 страниц + видео 

Самый фундаментальный труд по SEO, «от и до», никакой воды, много скриншотов и SEO-хаков. От известного автора с очень большим опытом.

Мой Телеграм-канал по саморазвитию:

Ежедневно пишу интресное в Телеграм-канале!
Психология, личная эффективность, планирование, как больше успевать, как снизить перегруз, убирать зависимости, как не обижаться, как хорошо себя чувствовать и многое другое, мои примеры из жизни, можно задать вопросы, пообщаться ) Заходите! Лайфхаки, секреты, гайды, новинки, истории, все самое интересное.

SEO-учебник по продвижению в Google в 2021 году

Новый Учебник «Практическое руководство по YMYL и E-A-T» — на 136 страниц — лучшее, что есть на рынке обучения среди руководств по продвижению сайтов.

Как сегодня понравиться Гуглу? Изучайте и применяйте.

От известного автора с очень большим опытом.

Телеграм-канал по SEO:

Автор Блога

Автор блога - Анна Ященко

Анна Ященко. 15 лет в SEO

Пишите:
Skype: topbase.ru
E-mail: topbase@yandex.ru

Я всегда рада обратной связи!

Присоединяйтесь в ВК!

Удобная подписка по e-mail

Подпишитесь по e-mail и вы будете получать только материалы этого сайта — анонсы новых статей и новостей, бесплатных видео-записей, книг и многого другого


Подробнее об авторе блога

Автор блога - Анна Ященко

Анна Ященко
15 лет в SEO

Мои контакты:

Skype: topbase.ru
E-mail: topbase@yandex.ru

Пишите — я всегда рада обратной связи!

Пишите, если у вас есть вопросы по самостоятельному продвижению сайтов, если нужны скидки на лицензионный SEO-софт, если нужно посоветовать хорошее обучение или с другими вопросами.

SEO-услуг я сейчас не оказываю, на заказ не продвигаю! 

Мои блог на тему саморазвития,
психологии, отношений, личной эффективности

© 2016 Анна Ященко. SEO-Блог о том, как успешно продвинуть сайт самостоятельно и бесплатно