Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Переменные в Python
  2. Декораторы в Python
  3. Создание вкладок с TKinter
  4. Методы split() и join() — Python строк.
  5. Работа с областями видимости переменных
  6. Искажение имен в Python
  7. Работа с модулем random
  8. Создание генераторов в Python
  9. Раздувающийся словарь в Python
  10. Проверка существования переменной с оператором :=
  11. Библиотека sh: удобные команды терминала
  12. Взаимодействие с sys
  13. Pretty-printing JSON в Python
  14. Замена атрибута в именованном кортеже
  15. Управление доступом к модулю
  16. Возврат нескольких значений из функции
  17. Python Translator: создание локальных переводчиков
  18. Поиск самого длинного слова в списке с использованием max()
  19. Подсчет элементов в Python
  20. Построение графиков в Matplotlib
  21. Работа с аргументами командной строки в Python
  22. Мониторинг памяти с Pympler
  23. Установка Python — Простое руководство
  24. Оптимизация сравнения в Python
  25. Сравнение def и lambda в Python
  26. Замена текста с помощью sub
  27. Перехват исключений в Python
  28. Основы работы с базами данных в Python
  29. Блок try…finally в Python
  30. Создание циклической ссылки
  31. Оболочка Python
  32. Переопределение метода __lshift__
  33. Работа с утверждениями в Python
  34. Работа с набором данных CIFAR10 в PyTorch
  35. Измерение времени выполнения кода
  36. Функции с дополнением
  37. Печать календаря в Python
  38. Разбиение строки в Python
  39. Работа с изображениями PIL
  40. Добавление Progressbar в Python
  41. Распаковка аргументов в Python
  42. Профилирование с cProfile
  43. inspect в Python: анализ кода
  44. Объединение множеств в Python
  45. Удаление элементов из списка в Python.
  46. Перевод двоичного кода в целое число

Marketello читают маркетологи из крутых компаний