Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Передача неизвестных аргументов в Python.
  2. Разделение строки с регулярными выражениями
  3. Область видимости переменных
  4. Область видимости переменных
  5. Работа со словарями Python
  6. Удаление ссылок в Python
  7. Изменение переменной в Python: nonlocal
  8. Справка по импортированным модулям
  9. Функция reduce() из модуля functools
  10. Функция с **kwargs в Python
  11. Python reversed() vs срез[::-1]
  12. Удаление файлов в Python
  13. Деление в Python
  14. Декораторы с аргументами
  15. Оформление текста в консоли с TermColor
  16. Объединение объектов в Python
  17. Удаление элементов из списка в Python
  18. Разность множеств
  19. Работа с defaultdictами в Python
  20. Метод lt для сортировки объектов
  21. Модуль sys: основы
  22. Встраивание HTML в Jupyter Notebook
  23. Получение списка файлов в директории с использованием os
  24. Переворот списка в Python
  25. Переворот списка в Python
  26. Транспонирование 2D-массива с помощью zip
  27. Асинхронное выполнение задач в процессах
  28. Преобразование чисел в Python
  29. Python: отличительная особенность — отступы
  30. Метод rename() для переименования файлов и каталогов
  31. Работа со случайными элементами
  32. Экспорт данных в файл.
  33. Переменные в Python: сокращение гласных
  34. Функции all и any в Python
  35. Обработка исключений с блоком else
  36. Тестирование с responses
  37. Профилирование с cProfile
  38. Установка Python3.7 и PIP
  39. Создание итератора
  40. Создание словарей с defaultdict()
  41. Разделение строки на пары ключ-значение.
  42. Конвертация изображений в PDF
  43. Проверка списка: any() и all()
  44. Python UserString — создание подклассов строк
  45. Работа со словарями в Python

Marketello читают маркетологи из крутых компаний