Алексей Рылко, iProspect — «SEO-инсайды, которые вы можете достать из логов сервера», доклад на конференции 8Р 2016

SEO-инсайды, которые вы
можете достать из логов сервера
Алексей Рылко, iProspect Paris для 8p 2016: Бизнес в сети

Для владельцев интернет-проектов
Которые также как и Джанлуиджи хотят держать все под контролем

Для руководителей SEO-компаний
Которые также как и Дэвид хотят работать с Европой

Для SEO-специалистов
Которые любят правильные цифры и не любят « сломанный телефон »

Для SEO-специалистов
Которые слишком дорожат своими клиентами,
чтобы делать не очень правильные вещи

Прежде чем начать
6
Все примеры на следующих
слайдах реальны.
Все возможные совпадения,
совершенно случайны.
“ “

Вспомним, как работает поиск
Поисковый робот ищет новые
страницы и пересканирует
старые.
РанжированиеИндексацияКраулинг
Разбирает найденные
документы,
классифицирует и
помещает их в базу
данных.
Расчитывает релевантность
и авторитетность и
определяет видимость в
поиске.

Что собой представляют логи?
site.com 66.249.64.117 - - [27/Jul/2015:12:45:21 +0300] "GET /your-page.html / HTTP/1.0" 200
77032 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Абсолютно любое обращение к сайту фиксируется на сервере в специальных файлах –
логах сервера – в виде таких строк:
IP-адрес Дата и время
Посещенная
страница
Код ответа
сервера
Размер страницы в
байтах
User-agent
Домен

А все в месте они образуют это:

СПОЙЛЕР: Есть много удобных инструментов

Где искать серверные логи?
/var/log/apache/access.log
/var/log/nginx/access.log
%SystemDrive%inetpublogsLogFiles
Apache
Nginx
IIS

Изучаем
поведение
Googlebot’а
самостоятельно

Googlebot и неактивные ссылки

Googlebot и robots.txt
1. Googlebot следует инструкциям в файле
robots.txt.
2. Googlebot блокирует доступ, но не
управляет индексацией.
3. Иногда Googlebot может показывать в
результатах поиска страницы, закрытые в
robots.txt, притом, что он никогда их не
посещал, ни индексировал.
«Googlebot не будет напрямую индексировать
содержимое, указанное в файле robots.txt,
однако сможет найти эти страницы по ссылкам
с других сайтов.
Таким образом, URL, а также другие
общедоступные сведения, например текст
ссылок на сайт, могут появиться в результатах
поискаGoogle.
Чтобы полностью исключить появление URL в
результатах поискаGoogle, используйте другие
способы: парольную защиту файлов на сервере
или метатеги с директивами по
индексированию».
https://support.google.com/webmasters/answer/6
062608?hl=ru&rd=1

Googlebot и robots.txt
Задача: удалить из индекса много ненужных страниц.
Частая ошибка: robots.txt + meta name=“robots” “noindex”.
Правильный вариант: robots.txt + meta name=“robots” “noindex”.
4. Ошибки в названии файла, в инструкциях, в хронологии.

Googlebot и адреса с решеткой (#)
84.233.174.130 [10/Jul/2016:19:18:32] GET /wp-content/tests/hashtest.html
66.249.93.113 [10/Jul/2016:19:19:01] GET /favicon.ico
66.249.64.184 [10/Jul/2016:19:20:06] GET /hash.html
66.249.64.184 [10/Jul/2016:19:20:14] GET /hash/
66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html
66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html

Google против всего интернета
17
60 000 000 000 000
СТРАНИЦ В СЕТИ, КОТОРЫЕ НУЖНО НАХОДИТЬ И ПОДДЕРЖИВАТЬ В АКТУАЛЬНОМСОСТОЯНИИ
77 160 494
СТРАНИЦ В СЕКУНДУ НУЖНО СКАНИРОВАТЬGOOGLE,
ЧТОБЫОБХОДИТЬ ВСЕ СТРАНИЦЫХОТЯ БЫ 1 РАЗ В 3 МЕСЯЦА.

Краулинговый бюджет
Краулинговый бюджет – процессорное
время, выделяемое поисковой
системой для сканирования
определенного сайта за единицу
времени.
Основной фактор влияния: Pagerank.

Где и в каком количестве расходуется бюджет?
На примере: портал по недвижимости.
Полезный и бесполезный краулинг

С какими ошибками сталкивается Googlebot?

Какие разделы сайта его недополучают?

А какие получают незаслуженно много?

Сколько страниц у вас на сайте?
Пример: крупный онлайн-ритейлер (~10 млн переходов из поиска в месяц).
Сканирование сайта обнаружило 5,3 миллиона страниц.

Страницы-сироты (orphan pages)
Страницы-сироты – страницы, о
которых знает поисковая система, но
которые не присутствуют в структуре
сайта.

Страницы-сироты (orphan pages)
Откуда они берутся?
• Страницы, на которые ведут внешние ссылки, но нет внутренних.
• Страницы с исправленными ошибками, но в базеGooglebot.
• Более неактуальные страницы с кодом 200OK.
• Оставшиеся после переезда страницы.
• Ошибки в rel=«canonical» и sitemap.xml.

Активные страницы (active pages)
Активные страницы – страницы,
которые принесли хотя бы 1 визит из
органического поиска за заданный
период (30-60 дней).

Краулинг и визиты
-600000 -400000 -200000 0 200000 400000 600000 800000
pagetype/search
pagetype/produits/*
pagetype/vente/*
pagetype/edito/*
pagetype/menu/*
pagetype/autre/*
pagetype/oldpages/*
pagetype/technique/*
pagetype/unknown
pagetype/univers/*
Unique Crawled URLs Organic Visits
На примере: интернет-магазин по продаже игр (1 млн переходов из органического поиска).
Страницы результатов внутреннего поиска были просканированы роботом Google 423 000 раз, принеся
только 26 000 SEO-визитов.

Оцениваем эффективность разделов сайта

Над чем работать в первую очередь?

Как вложенность влияет на краулинг?
На примере: портал по недвижимости (400 000 переходов из органического поиска).

Как количество слов влияет на краулинг?
10%
19%
56%
72%
81%
89%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
> 150 words 150 - 300
words
300 - 500
words
500 - 800
words
800 - 1200
words
> 1200 words
Pages in the structure not crawled Pages in the structure crawled

Отслеживаем эффект от своих действий
Фиксируем рост и падения.
Сработали ли мои изменения?
Успешно ли прошел переезд?
Повлияла ли перелинковка?
и т.д.

Аргументируем доработки
Обычный программист

Краулинг и скорость загрузки
-35%
-150
мс
+55%
+85K стр.

Почему нужно доработать скорость загрузки?
79%
67% 65% 62%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Fast (> 500 ms) Medium (500 ms - 1 s) Slow (1 s - 2 s) Very slow (> 2 s)
Pages in the structure not crawled Pages in the structure crawled

Аргументируем доработки
Понимающий и сочувствующий программист

Инструменты для
работы с логами

2 подхода в работе с логами сервера
Аудит Мониторинг
1. Логи за 30-60 дней (размер и
тематика).
2. Кросс-аналитика:
Краулинг + Логи + Google
Analytics.
3. Диагностика полезных и
бесполезных страниц, зон
сайта, о которых Google знает и
нет.
Сбор логов в режиме реального
времени.
Обязателен при редизайне /
переезде сайта.
Оповещения:
• Ошибки
• Объем краулинга
• Атаки
• Новые страницы

Инструменты для работы с логами
Google
Search Console
Десктопные
программы
Apache log viewer
Screaming Frog
Splunk
Power BI
SaaS
Решения
Botify
Oncrawl
Logs.io
Qbox
Logentries
Ручная
обработка
Командная строка
Notepad++
Excel
Open Source
пакеты
ELK
Logalize
Graylog

Google Search Console
+ -
Простой и быстрый доступ
Объем краулинга по дням
Общий тренд
Нет сегментации
Неизвестно качество краулинга
Задержка данных 2 дня

Excel / Notepad++ / Консоль
cat file1.log file2.log > output_file.log
сat file1.log | grep 'googlebot' >> file-googlebots.log
Объединить несколько файлов в один
Оставитьтолько визитыGooglebot’а
Полезные команды для работы с логами
Max: 1 млн строк. Max: 500 мб. Max: Нет
Excel Notepad++ Terminal, Cygwin

Botify.com: Analytics + Log Analyzer

Oncrawl.com: краулер + анализатор логов

ELK: Elasticsearch + Logstash + Kibana

Глобальные тренды в поведении Googlebot’а
0
100
200
300
400
500
600
700
800
1/1/10
2/1/10
3/1/10
4/1/10
5/1/10
6/1/10
7/1/10
8/1/10
9/1/10
10/1/10
11/1/10
12/1/10
1/1/11
2/1/11
3/1/11
4/1/11
5/1/11
6/1/11
7/1/11
8/1/11
9/1/11
10/1/11
11/1/11
12/1/11
1/1/12
2/1/12
3/1/12
4/1/12
5/1/12
Crawled files in /js/
Crawled files in /js/

Подведем итог
1. Логи сервера – самый надежный и точный источник информации о поведении поисковых
роботов.
2. Появилось много инструментов для удобной работы с ними. Можно легко подобрать под свои
задачи и бюджет.
3. Изучение логов позволяет проверить многие гипотезы, мифы, особенности работы поиска.
4. Полезный источник информации для поиска точек роста, применения усилий, проверки своей
работы.
5. Неограниченные возможности по внутрисайтовой кросс-аналитике, например, можно
сопоставить страницы, посещаемые роботом Google со страницами, приносящими доход.
6. Для тех, кто хочет идти дальше:
1. Оценка ссылочных кампаний на основе роста краулингового бюджета и частоты
краулинга.
2. Определение наложения антиспам фильтров типа « Google Panda ».

Merci! Вопросы?
Алексей Рылко / aliaksei.rylko@iprospect.com / fb.com/rylko

Алексей Рылко, iProspect — «SEO-инсайды, которые вы можете достать из логов сервера», доклад на конференции 8Р 2016

More Related Content

Алексей Рылко, iProspect — «SEO-инсайды, которые вы можете достать из логов сервера», доклад на конференции 8Р 2016