Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Создание новых функций с помощью functools.partial
  2. Уникальные значения из списка
  3. Разбиение текста в Python
  4. Декоратор защиты анонимных пользователей
  5. Различия символов в Python
  6. Метод __imod__ для Python
  7. Метод index() в Python
  8. Взаимодействие с внешними процессами в Python
  9. Блок try-except-else
  10. Разбиение строки в Python
  11. Транспонирование 2D-массива с помощью zip
  12. Асинхронное программирование с asyncio
  13. Создание namedtuple списком полей
  14. Цикл for в Python
  15. Бесконечные списки в Python
  16. Изменение регистра данных
  17. Избегайте двойного подчеркивания
  18. inspect в Python: анализ кода
  19. Функция map() и ленивая оценка
  20. Управление пакетами с pip
  21. Псевдонимы в Python
  22. Проверка существования переменной с оператором :=
  23. Значения по умолчанию в Python
  24. Функции any() и all() в Python
  25. GitHub в Telegram: подписка на уведомления
  26. Подсчет элементов в Python
  27. Обработка ошибок в Python
  28. Тестирование с responses
  29. Метод append() для списка
  30. SciPy: широкий функционал для математических операций
  31. Метод splitlines() для разделения строк
  32. Исправление ошибки NameError
  33. Обучение модели с указанием эпох
  34. Метод __int__ в Python
  35. Поиск email
  36. Копирование объектов в Python
  37. Проверка условий: all и any
  38. Метод ne для сравнения объектов
  39. Метод __complex__ в Python
  40. Python groupby() из itertools: работа с повторяющимися элементами
  41. Метод setdefault() в Python
  42. Тестирование времени с Freezegun
  43. Именованные аргументы в Python
  44. Измерение потребления памяти при сортировке
  45. Получение текущей даты в Python
  46. Метод __float__ в Python
  47. PATCH-запрос с библиотекой requests

Marketello читают маркетологи из крутых компаний