Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.

Очистка веб-страниц (также известная как веб-сбор данных, веб-анализ или извлечение веб-данных) - это процесс использования программирования для извлечения информации из Интернета.

Соскреб в Интернете работает, запрашивая HTML-страницы с веб-сайта и извлекая определенные данные, используя шаблоны в разметке HTML или встраивая полноценный веб-браузер. Более совершенные системы очистки веб-страниц, а именно, в отношении масштабов, планирования и автоматизации, часто называют пауками или поисковыми роботами.

Потенциальные использования включают в себя:

  • Получение сравнения цен товаров или акций для сравнения,

  • Контактная информация и сбор адресов электронной почты,

  • Создание сайта или создание альтернативного интерфейса для существующего сайта,

  • Сбор статистики по ценам на недвижимость или продажам автомобилей,

  • Обнаружение изменения сайта

  • Создание архивов мертвых страниц

Практика веб-соскоба вызвала много споров, потому что условия использования или авторские права для некоторых веб-сайтов и электронных публикаций не разрешают определенные виды интеллектуального анализа данных. Хотя очистка веб-страниц сама по себе не является незаконной, могут возникать юридические проблемы, если они совершаются со злонамеренными или плагиатическими намерениями, в обход системы покупки сайтов, оплаты подписки или других мошеннических или злонамеренных целей.

Были многочисленные случаи судебных исков и других судебных исков против компаний и частных лиц. Прежде чем пытаться извлечь какую-либо информацию с веб-сайта способом, который потенциально противоречит использованию сайта с отступами, важно проявить должную осмотрительность при ознакомлении с применимыми местными и международными законами, а также с условиями обслуживания сайта, авторскими правами, и торговые марки. Дальнейшее обсуждение правовых последствий можно найти в Интернете, включая Википедию, Новости хакерови Laws.com.

Сканирование в Интернете- это компонент веб-поиска по нескольким сайтам, который индексирует информацию в Интернете с помощью бота или «паука» и является универсальный метод, принятый большинством поисковых систем при выполнении запросов на исключение, таких как те, которые опубликовали robots.txtместо в файле сайт .

В отличие от этого, в веб-очистке основное внимание уделяется преобразованию неструктурированных данных в Интернете, обычно из HTMLв структурированную форму, которая может быть легче хранить, манипулировать и анализировать с помощью таких инструментов, как база данных или электронная таблица.

Соскребание экранаимеет аналогичную цель, но включает в себя программный сбор визуальных данных из источника ( в отличие от синтаксического анализа данных (как в веб-очистке) и первоначально включал чтение памяти терминалов или видеоданных путем подключения терминалов к входному порту другого компьютера.

web-scrapingчаще всего помечается вместе с:

Sup python(включая beautifulsoupи scrapy)
javascript(включая node.jsи phantomjs)
r(включая rvest)
selenium
xml(включая xpath)
java(включая jsoup)
Sup php
vba( в том числе vba-excel)


Примечание о правописании

Глагол пишется, чтобы очистить, или как нынешнее очищение причастия, и не должен быть перепутан с , чтобы слом или слом , то есть отказаться от того, что вам больше не нужно или не нужно, или не продолжать план.


Дальнейшее чтение: