Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
Crawling healthy
MIKHAIL KAVALIOU
January, 2020
Crawling healthy
1
Mikhail Kavaliou
Senior Java Developer
6+ years in Java
3+ years in EPAM
1
• SEO
• Crawling
• Scrapy
• Cloud Crawling
1
1
Что такое crawling?
1
Для чего не стоит использовать crawling?
1
Для чего нужен crawling?
1
Предсказание результата
1
Построение графа (карты) сайта
Граф minuteforshop.com
1
Решение технических проблем
1
Выбор лучшей библиотеки
1
Как устроен Scrapy?
1
Гибкость настройки и кастомизации
1
Запуск crawling процесса
crawl my-spider
-a domains="["example.com"]"
-a urls="["http://example.com/sitemap.xml"]"
-s ROBOTSTXT_OBEY=True
1
Архитектура crawling проекта
1
Очереди и состояние
1
Рендеринг JavaScript
1
Scrapyhub и облачный crawling
ИТОГ
Crawler – инструмент для бизнеса
и не только, имеющий множество
применений.
USED RESOURCES
• https://ru.wikipedia.org/wiki/Поисковая_оптимизация
• https://ru.wikipedia.org/wiki/Поисковый_робот
• https://docs.scrapy.org/en/latest/
• https://scrapinghub.com
• https://github.com/MikhailKavaliou/CrawlingHealthy
Crawling healthy

More Related Content

Crawling healthy