Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Метаклассы в Python
  2. Библиотека sh: использование команд bash в Python
  3. Новшества Flask 2.0
  4. Работа со случайными элементами
  5. Списки в Python
  6. Объединение строк с помощью метода join
  7. Создание объекта timedelta
  8. Преобразование объекта в строку
  9. Объединение словарей в Python
  10. Python reversed() vs срез[::-1]
  11. Метод join() для объединения строк
  12. Управление ресурсами в Python
  13. Отладка в Python
  14. Замена текста с помощью sub
  15. Многострочные комментарии в Python
  16. Хешируемые ключи в Python
  17. Условные выражения в Python
  18. PATCH-запрос с библиотекой requests
  19. Декораторы в Python
  20. Просмотр файла в Jupyter Noteboo
  21. Стать Python-разработчиком
  22. Игра «Угадывание чисел»
  23. Подсчет элементов с помощью Counter
  24. Функция zip() в Python
  25. Модуль math: основные функции
  26. Карта бомбоубежищ в Москве и Питере
  27. Метод init в Python
  28. Создание GUI на Tkinter
  29. Модуль array: создание и использование массивов
  30. Добавление вложенных списков
  31. Python: Фильтрация списков с помощью filter()
  32. Работа с модулем random
  33. Сокращение ссылок с pyshorteners
  34. Генераторы в Python
  35. Инверсия списка и строки в Python
  36. Асинхронное выполнение задач в Python
  37. Работа с коллекциями Python
  38. Счетчик ссылок в Python
  39. Определение объема памяти объекта
  40. Обработка исключений в Python
  41. Метод ne для сравнения объектов

Marketello читают маркетологи из крутых компаний