Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
SEO-инсайды, которые вы
можете достать из логов сервера
Алексей Рылко, iProspect Paris для 8p 2016: Бизнес в сети
Для владельцев интернет-проектов
Которые также как и Джанлуиджи хотят держать все под контролем
Для руководителей SEO-компаний
Которые также как и Дэвид хотят работать с Европой
Для SEO-специалистов
Которые любят правильные цифры и не любят « сломанный телефон »
Для SEO-специалистов
Которые слишком дорожат своими клиентами,
чтобы делать не очень правильные вещи
Прежде чем начать
6
Все примеры на следующих
слайдах реальны.
Все возможные совпадения,
совершенно случайны.
“ “
Вспомним, как работает поиск
Поисковый робот ищет новые
страницы и пересканирует
старые.
РанжированиеИндексацияКраулинг
Разбирает найденные
документы,
классифицирует и
помещает их в базу
данных.
Расчитывает релевантность
и авторитетность и
определяет видимость в
поиске.
Что собой представляют логи?
site.com 66.249.64.117 - - [27/Jul/2015:12:45:21 +0300] "GET /your-page.html / HTTP/1.0" 200
77032 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Абсолютно любое обращение к сайту фиксируется на сервере в специальных файлах –
логах сервера – в виде таких строк:
IP-адрес Дата и время
Посещенная
страница
Код ответа
сервера
Размер страницы в
байтах
User-agent
Домен
А все в месте они образуют это:
СПОЙЛЕР: Есть много удобных инструментов
Где искать серверные логи?
/var/log/apache/access.log
/var/log/nginx/access.log
%SystemDrive%inetpublogsLogFiles
Apache
Nginx
IIS
Изучаем
поведение
Googlebot’а
самостоятельно
Googlebot и неактивные ссылки
Googlebot и robots.txt
1. Googlebot следует инструкциям в файле
robots.txt.
2. Googlebot блокирует доступ, но не
управляет индексацией.
3. Иногда Googlebot может показывать в
результатах поиска страницы, закрытые в
robots.txt, притом, что он никогда их не
посещал, ни индексировал.
«Googlebot не будет напрямую индексировать
содержимое, указанное в файле robots.txt,
однако сможет найти эти страницы по ссылкам
с других сайтов.
Таким образом, URL, а также другие
общедоступные сведения, например текст
ссылок на сайт, могут появиться в результатах
поискаGoogle.
Чтобы полностью исключить появление URL в
результатах поискаGoogle, используйте другие
способы: парольную защиту файлов на сервере
или метатеги с директивами по
индексированию».
https://support.google.com/webmasters/answer/6
062608?hl=ru&rd=1
Googlebot и robots.txt
Задача: удалить из индекса много ненужных страниц.
Частая ошибка: robots.txt + meta name=“robots” “noindex”.
Правильный вариант: robots.txt + meta name=“robots” “noindex”.
4. Ошибки в названии файла, в инструкциях, в хронологии.
Googlebot и адреса с решеткой (#)
84.233.174.130 [10/Jul/2016:19:18:32] GET /wp-content/tests/hashtest.html
66.249.93.113 [10/Jul/2016:19:19:01] GET /favicon.ico
66.249.64.194 [10/Jul/2016:19:19:15] GET /wp-content/tests/hashtest.html
66.249.64.184 [10/Jul/2016:19:19:58] GET /wp-content/tests/hashtest.html
66.249.64.184 [10/Jul/2016:19:20:06] GET /hash.html
66.249.64.184 [10/Jul/2016:19:20:14] GET /hash/
66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html
66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html
Google против всего интернета
17
60 000 000 000 000
СТРАНИЦ В СЕТИ, КОТОРЫЕ НУЖНО НАХОДИТЬ И ПОДДЕРЖИВАТЬ В АКТУАЛЬНОМСОСТОЯНИИ
77 160 494
СТРАНИЦ В СЕКУНДУ НУЖНО СКАНИРОВАТЬGOOGLE,
ЧТОБЫОБХОДИТЬ ВСЕ СТРАНИЦЫХОТЯ БЫ 1 РАЗ В 3 МЕСЯЦА.
Краулинговый бюджет
Краулинговый бюджет – процессорное
время, выделяемое поисковой
системой для сканирования
определенного сайта за единицу
времени.
Основной фактор влияния: Pagerank.
Где и в каком количестве расходуется бюджет?
На примере: портал по недвижимости.
Полезный и бесполезный краулинг
С какими ошибками сталкивается Googlebot?
Какие разделы сайта его недополучают?
А какие получают незаслуженно много?
Сколько страниц у вас на сайте?
Пример: крупный онлайн-ритейлер (~10 млн переходов из поиска в месяц).
Сканирование сайта обнаружило 5,3 миллиона страниц.
Страницы-сироты (orphan pages)
Страницы-сироты – страницы, о
которых знает поисковая система, но
которые не присутствуют в структуре
сайта.
Страницы-сироты (orphan pages)
Откуда они берутся?
• Страницы, на которые ведут внешние ссылки, но нет внутренних.
• Страницы с исправленными ошибками, но в базеGooglebot.
• Более неактуальные страницы с кодом 200OK.
• Оставшиеся после переезда страницы.
• Ошибки в rel=«canonical» и sitemap.xml.
Активные страницы (active pages)
Активные страницы – страницы,
которые принесли хотя бы 1 визит из
органического поиска за заданный
период (30-60 дней).
Краулинг и визиты
-600000 -400000 -200000 0 200000 400000 600000 800000
pagetype/search
pagetype/produits/*
pagetype/vente/*
pagetype/edito/*
pagetype/menu/*
pagetype/autre/*
pagetype/oldpages/*
pagetype/technique/*
pagetype/unknown
pagetype/univers/*
Unique Crawled URLs Organic Visits
На примере: интернет-магазин по продаже игр (1 млн переходов из органического поиска).
Страницы результатов внутреннего поиска были просканированы роботом Google 423 000 раз, принеся
только 26 000 SEO-визитов.
Оцениваем эффективность разделов сайта
Над чем работать в первую очередь?
Как вложенность влияет на краулинг?
На примере: портал по недвижимости (400 000 переходов из органического поиска).
Как количество слов влияет на краулинг?
10%
19%
56%
72%
81%
89%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
> 150 words 150 - 300
words
300 - 500
words
500 - 800
words
800 - 1200
words
> 1200 words
Pages in the structure not crawled Pages in the structure crawled
Отслеживаем эффект от своих действий
Фиксируем рост и падения.
Сработали ли мои изменения?
Успешно ли прошел переезд?
Повлияла ли перелинковка?
и т.д.
Аргументируем доработки
Обычный программист
Краулинг и скорость загрузки
-35%
-150
мс
+55%
+85K стр.
Почему нужно доработать скорость загрузки?
79%
67% 65% 62%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Fast (> 500 ms) Medium (500 ms - 1 s) Slow (1 s - 2 s) Very slow (> 2 s)
Pages in the structure not crawled Pages in the structure crawled
Аргументируем доработки
Понимающий и сочувствующий программист
Инструменты для
работы с логами
2 подхода в работе с логами сервера
Аудит Мониторинг
1. Логи за 30-60 дней (размер и
тематика).
2. Кросс-аналитика:
Краулинг + Логи + Google
Analytics.
3. Диагностика полезных и
бесполезных страниц, зон
сайта, о которых Google знает и
нет.
Сбор логов в режиме реального
времени.
Обязателен при редизайне /
переезде сайта.
Оповещения:
• Ошибки
• Объем краулинга
• Атаки
• Новые страницы
Инструменты для работы с логами
Google
Search Console
Десктопные
программы
Apache log viewer
Screaming Frog
Splunk
Power BI
SaaS
Решения
Botify
Oncrawl
Logs.io
Qbox
Logentries
Ручная
обработка
Командная строка
Notepad++
Excel
Open Source
пакеты
ELK
Logalize
Graylog
Google Search Console
+ -
Простой и быстрый доступ
Объем краулинга по дням
Общий тренд
Нет сегментации
Неизвестно качество краулинга
Задержка данных 2 дня
Excel / Notepad++ / Консоль
cat file1.log file2.log > output_file.log
сat file1.log | grep 'googlebot' >> file-googlebots.log
Объединить несколько файлов в один
Оставитьтолько визитыGooglebot’а
Полезные команды для работы с логами
Max: 1 млн строк. Max: 500 мб. Max: Нет
Excel Notepad++ Terminal, Cygwin
Botify.com: Analytics + Log Analyzer
Oncrawl.com: краулер + анализатор логов
ELK: Elasticsearch + Logstash + Kibana
Глобальные тренды в поведении Googlebot’а
0
100
200
300
400
500
600
700
800
1/1/10
2/1/10
3/1/10
4/1/10
5/1/10
6/1/10
7/1/10
8/1/10
9/1/10
10/1/10
11/1/10
12/1/10
1/1/11
2/1/11
3/1/11
4/1/11
5/1/11
6/1/11
7/1/11
8/1/11
9/1/11
10/1/11
11/1/11
12/1/11
1/1/12
2/1/12
3/1/12
4/1/12
5/1/12
Crawled files in /js/
Crawled files in /js/
Подведем итог
1. Логи сервера – самый надежный и точный источник информации о поведении поисковых
роботов.
2. Появилось много инструментов для удобной работы с ними. Можно легко подобрать под свои
задачи и бюджет.
3. Изучение логов позволяет проверить многие гипотезы, мифы, особенности работы поиска.
4. Полезный источник информации для поиска точек роста, применения усилий, проверки своей
работы.
5. Неограниченные возможности по внутрисайтовой кросс-аналитике, например, можно
сопоставить страницы, посещаемые роботом Google со страницами, приносящими доход.
6. Для тех, кто хочет идти дальше:
1. Оценка ссылочных кампаний на основе роста краулингового бюджета и частоты
краулинга.
2. Определение наложения антиспам фильтров типа « Google Panda ».
Merci! Вопросы?
Алексей Рылко / aliaksei.rylko@iprospect.com / fb.com/rylko

More Related Content

Алексей Рылко, iProspect — «SEO-инсайды, которые вы можете достать из логов сервера», доклад на конференции 8Р 2016

  • 1. SEO-инсайды, которые вы можете достать из логов сервера Алексей Рылко, iProspect Paris для 8p 2016: Бизнес в сети
  • 2. Для владельцев интернет-проектов Которые также как и Джанлуиджи хотят держать все под контролем
  • 3. Для руководителей SEO-компаний Которые также как и Дэвид хотят работать с Европой
  • 4. Для SEO-специалистов Которые любят правильные цифры и не любят « сломанный телефон »
  • 5. Для SEO-специалистов Которые слишком дорожат своими клиентами, чтобы делать не очень правильные вещи
  • 6. Прежде чем начать 6 Все примеры на следующих слайдах реальны. Все возможные совпадения, совершенно случайны. “ “
  • 7. Вспомним, как работает поиск Поисковый робот ищет новые страницы и пересканирует старые. РанжированиеИндексацияКраулинг Разбирает найденные документы, классифицирует и помещает их в базу данных. Расчитывает релевантность и авторитетность и определяет видимость в поиске.
  • 8. Что собой представляют логи? site.com 66.249.64.117 - - [27/Jul/2015:12:45:21 +0300] "GET /your-page.html / HTTP/1.0" 200 77032 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Абсолютно любое обращение к сайту фиксируется на сервере в специальных файлах – логах сервера – в виде таких строк: IP-адрес Дата и время Посещенная страница Код ответа сервера Размер страницы в байтах User-agent Домен
  • 9. А все в месте они образуют это:
  • 10. СПОЙЛЕР: Есть много удобных инструментов
  • 11. Где искать серверные логи? /var/log/apache/access.log /var/log/nginx/access.log %SystemDrive%inetpublogsLogFiles Apache Nginx IIS
  • 14. Googlebot и robots.txt 1. Googlebot следует инструкциям в файле robots.txt. 2. Googlebot блокирует доступ, но не управляет индексацией. 3. Иногда Googlebot может показывать в результатах поиска страницы, закрытые в robots.txt, притом, что он никогда их не посещал, ни индексировал. «Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на сайт, могут появиться в результатах поискаGoogle. Чтобы полностью исключить появление URL в результатах поискаGoogle, используйте другие способы: парольную защиту файлов на сервере или метатеги с директивами по индексированию». https://support.google.com/webmasters/answer/6 062608?hl=ru&rd=1
  • 15. Googlebot и robots.txt Задача: удалить из индекса много ненужных страниц. Частая ошибка: robots.txt + meta name=“robots” “noindex”. Правильный вариант: robots.txt + meta name=“robots” “noindex”. 4. Ошибки в названии файла, в инструкциях, в хронологии.
  • 16. Googlebot и адреса с решеткой (#) 84.233.174.130 [10/Jul/2016:19:18:32] GET /wp-content/tests/hashtest.html 66.249.93.113 [10/Jul/2016:19:19:01] GET /favicon.ico 66.249.64.194 [10/Jul/2016:19:19:15] GET /wp-content/tests/hashtest.html 66.249.64.184 [10/Jul/2016:19:19:58] GET /wp-content/tests/hashtest.html 66.249.64.184 [10/Jul/2016:19:20:06] GET /hash.html 66.249.64.184 [10/Jul/2016:19:20:14] GET /hash/ 66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html 66.249.64.184 [10/Jul/2016:19:20:44] GET /hash/?_escaped_fragment_=/difficultpage2.html
  • 17. Google против всего интернета 17 60 000 000 000 000 СТРАНИЦ В СЕТИ, КОТОРЫЕ НУЖНО НАХОДИТЬ И ПОДДЕРЖИВАТЬ В АКТУАЛЬНОМСОСТОЯНИИ 77 160 494 СТРАНИЦ В СЕКУНДУ НУЖНО СКАНИРОВАТЬGOOGLE, ЧТОБЫОБХОДИТЬ ВСЕ СТРАНИЦЫХОТЯ БЫ 1 РАЗ В 3 МЕСЯЦА.
  • 18. Краулинговый бюджет Краулинговый бюджет – процессорное время, выделяемое поисковой системой для сканирования определенного сайта за единицу времени. Основной фактор влияния: Pagerank.
  • 19. Где и в каком количестве расходуется бюджет? На примере: портал по недвижимости. Полезный и бесполезный краулинг
  • 20. С какими ошибками сталкивается Googlebot?
  • 21. Какие разделы сайта его недополучают?
  • 22. А какие получают незаслуженно много?
  • 23. Сколько страниц у вас на сайте? Пример: крупный онлайн-ритейлер (~10 млн переходов из поиска в месяц). Сканирование сайта обнаружило 5,3 миллиона страниц.
  • 24. Страницы-сироты (orphan pages) Страницы-сироты – страницы, о которых знает поисковая система, но которые не присутствуют в структуре сайта.
  • 25. Страницы-сироты (orphan pages) Откуда они берутся? • Страницы, на которые ведут внешние ссылки, но нет внутренних. • Страницы с исправленными ошибками, но в базеGooglebot. • Более неактуальные страницы с кодом 200OK. • Оставшиеся после переезда страницы. • Ошибки в rel=«canonical» и sitemap.xml.
  • 26. Активные страницы (active pages) Активные страницы – страницы, которые принесли хотя бы 1 визит из органического поиска за заданный период (30-60 дней).
  • 27. Краулинг и визиты -600000 -400000 -200000 0 200000 400000 600000 800000 pagetype/search pagetype/produits/* pagetype/vente/* pagetype/edito/* pagetype/menu/* pagetype/autre/* pagetype/oldpages/* pagetype/technique/* pagetype/unknown pagetype/univers/* Unique Crawled URLs Organic Visits На примере: интернет-магазин по продаже игр (1 млн переходов из органического поиска). Страницы результатов внутреннего поиска были просканированы роботом Google 423 000 раз, принеся только 26 000 SEO-визитов.
  • 29. Над чем работать в первую очередь?
  • 30. Как вложенность влияет на краулинг? На примере: портал по недвижимости (400 000 переходов из органического поиска).
  • 31. Как количество слов влияет на краулинг? 10% 19% 56% 72% 81% 89% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% > 150 words 150 - 300 words 300 - 500 words 500 - 800 words 800 - 1200 words > 1200 words Pages in the structure not crawled Pages in the structure crawled
  • 32. Отслеживаем эффект от своих действий Фиксируем рост и падения. Сработали ли мои изменения? Успешно ли прошел переезд? Повлияла ли перелинковка? и т.д.
  • 34. Краулинг и скорость загрузки -35% -150 мс +55% +85K стр.
  • 35. Почему нужно доработать скорость загрузки? 79% 67% 65% 62% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Fast (> 500 ms) Medium (500 ms - 1 s) Slow (1 s - 2 s) Very slow (> 2 s) Pages in the structure not crawled Pages in the structure crawled
  • 36. Аргументируем доработки Понимающий и сочувствующий программист
  • 38. 2 подхода в работе с логами сервера Аудит Мониторинг 1. Логи за 30-60 дней (размер и тематика). 2. Кросс-аналитика: Краулинг + Логи + Google Analytics. 3. Диагностика полезных и бесполезных страниц, зон сайта, о которых Google знает и нет. Сбор логов в режиме реального времени. Обязателен при редизайне / переезде сайта. Оповещения: • Ошибки • Объем краулинга • Атаки • Новые страницы
  • 39. Инструменты для работы с логами Google Search Console Десктопные программы Apache log viewer Screaming Frog Splunk Power BI SaaS Решения Botify Oncrawl Logs.io Qbox Logentries Ручная обработка Командная строка Notepad++ Excel Open Source пакеты ELK Logalize Graylog
  • 40. Google Search Console + - Простой и быстрый доступ Объем краулинга по дням Общий тренд Нет сегментации Неизвестно качество краулинга Задержка данных 2 дня
  • 41. Excel / Notepad++ / Консоль cat file1.log file2.log > output_file.log сat file1.log | grep 'googlebot' >> file-googlebots.log Объединить несколько файлов в один Оставитьтолько визитыGooglebot’а Полезные команды для работы с логами Max: 1 млн строк. Max: 500 мб. Max: Нет Excel Notepad++ Terminal, Cygwin
  • 42. Botify.com: Analytics + Log Analyzer
  • 43. Oncrawl.com: краулер + анализатор логов
  • 44. ELK: Elasticsearch + Logstash + Kibana
  • 45. Глобальные тренды в поведении Googlebot’а 0 100 200 300 400 500 600 700 800 1/1/10 2/1/10 3/1/10 4/1/10 5/1/10 6/1/10 7/1/10 8/1/10 9/1/10 10/1/10 11/1/10 12/1/10 1/1/11 2/1/11 3/1/11 4/1/11 5/1/11 6/1/11 7/1/11 8/1/11 9/1/11 10/1/11 11/1/11 12/1/11 1/1/12 2/1/12 3/1/12 4/1/12 5/1/12 Crawled files in /js/ Crawled files in /js/
  • 46. Подведем итог 1. Логи сервера – самый надежный и точный источник информации о поведении поисковых роботов. 2. Появилось много инструментов для удобной работы с ними. Можно легко подобрать под свои задачи и бюджет. 3. Изучение логов позволяет проверить многие гипотезы, мифы, особенности работы поиска. 4. Полезный источник информации для поиска точек роста, применения усилий, проверки своей работы. 5. Неограниченные возможности по внутрисайтовой кросс-аналитике, например, можно сопоставить страницы, посещаемые роботом Google со страницами, приносящими доход. 6. Для тех, кто хочет идти дальше: 1. Оценка ссылочных кампаний на основе роста краулингового бюджета и частоты краулинга. 2. Определение наложения антиспам фильтров типа « Google Panda ».
  • 47. Merci! Вопросы? Алексей Рылко / aliaksei.rylko@iprospect.com / fb.com/rylko