Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Установка Home Assistant
  2. Объединение множеств в Python
  3. Оптимизация интернирования строк
  4. Генераторы в Python
  5. Официальный канал Python в Telegram
  6. Объединение словарей в Python
  7. Переопределение метода __or__()
  8. Работа с модулем random
  9. Оператор (*) в Python
  10. Освоение Python
  11. Подсказки типов в Python
  12. Переворот строки с помощью срезов
  13. Оформление текста в консоли с TermColor
  14. Удаление символов новой строки в Python.
  15. Работа с очередями в Python
  16. Методы обработки строк в Python
  17. Отправка POST-запроса в REST API
  18. Объединение словарей в Python
  19. Библиотека schedule: планировщик задач
  20. Запуск внешних программ с subprocess
  21. Пустой оператор pass в Python
  22. Работа с YAML в Python
  23. Управление асинхронными задачами с помощью Semaphore
  24. Шаблоны и наследование в Flask
  25. Метод get() для словарей
  26. Возвращение нескольких значений
  27. Создание класса очереди
  28. Открытие и редактирование скриптов Python
  29. Обрезка изображения с Pillow
  30. Оператор zip в Python
  31. Установка и использование Python-dateutil
  32. Использование метода lower()
  33. Команда %dhist — список посещенных каталогов
  34. Список методов и атрибутов
  35. Python 3.12: переиспользование кавычек
  36. Генераторы в Python
  37. Установка и использование Telegram API в Python
  38. Генерация QR-кодов с библиотекой qrcode
  39. Enum в Python
  40. Howdoi — получение ответов из терминала
  41. Поиск кода
  42. Работа с timedelta в Python
  43. Печать списка с помощью метода join
  44. Запрос DELETE с библиотекой requests
  45. Форматирование строк в Python

Marketello читают маркетологи из крутых компаний