Scrapy

Не плутати з Scrapie.
Scrapy
ТипWeb scraping
РозробникZyte (раніше Scrapinghub)
Перший випуск26 червня 2008
Стабільний випуск2.11.0 (18 вересня 2023)
Операційна системаWindows, macOS, Linux
Мова програмуванняPython
ЛіцензіяBSD License
Репозиторійhttps://github.com/scrapy/scrapy
Вебсайтscrapy.org

Scrapy ([ˈskrp] "скрейпай", також, часто вживається "скрепі") — це безкоштовна платформа для вебсканування (збору даних у вебі) з відкритим кодом, написана на Python. Хоча її було спроєктовано для вебскрепінгу, її також можна використовувати для вилучення даних за допомогою API або як вебсканер (пошуковий робот) загального призначення. [1] Наразі він підтримується компанією Zyte (раніше Scrapinghub), яка займається розробкою та послугами вебскрепінгу.

Архітектура проєкту Scrapy побудована навколо «павуків» ("spiders"), які є самодостатніми сканерами та отримують набір інструкцій. Дотримуюється духу «не повторюйся» (DRY — don't repeat yourself) інших фреймворків, таких як Django [2], що полегшує створення та масштабування великих проєктів-сканерів, дозволяючи розробникам повторно використовувати свій код.

Деякі відомі компанії та продукти, які використовують Scrapy: Lyst[3][4], Parse.ly[5], Sayone Technologies[6], Sciences Po Medialab[7], Data.gov.uk's World Government Data site[8].

Історія

Scrapy було створено в лондонській компанії з вебагрегації та електронної комерції Mydeco, де її розробили та підтримували співробітники Mydeco та Insophia (веб-консалтингова компанія, розташована в Монтевідео, Уругвай). Перший публічний випуск відбувся у серпні 2008 року за ліцензією BSD, а віха 1.0 відбулася в червні 2015 року[9]. У 2011 році Zyte (раніше Scrapinghub) став новим офіційним утримувачем[10][11].

Посилання

  1. Scrapy at a glance.
  2. Frequently Asked Questions. Frequently Asked Questions, Scrapy 2.8.0 documentation (амер.). Процитовано 28 липня 2015.
  3. Bell, Eddie; Heusser, Jonathan. Scalable Scraping Using Machine Learning. Архів оригіналу за 4 June 2016. Процитовано 28 липня 2015.
  4. Scrapy | Companies using Scrapy
  5. Montalenti, Andrew (27 жовтня 2012). Web Crawling & Metadata Extraction in Python. Web Crawling & Metadata Extraction in Python - Speaker Deck (амер.). Процитовано 11 травня 2015.
  6. Scrapy Companies. Scrapy | Companies using Scrapy.
  7. Hyphe v0.0.0: the first release of our new webcrawler is out!
  8. Ben Firshman [@bfirsh] (4 листопада 2010). World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords http://bit.ly/5jU3La #opendata #datastore (Твіт) — через Твіттер.
  9. Medina, Julia (19 червня 2015). Scrapy 1.0 official release out!. scrapy-users (Список розсилки).
  10. Hoffman, Pablo (2013). List of the primary authors & contributors (амер.). Процитовано 18 листопада 2013.
  11. Interview Scraping Hub.