Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Объединение строк с помощью метода join
  2. Подробная информация о %pinfo
  3. Сортировка в Python
  4. Numpy: использование Ellipsis
  5. Порядок и длина множеств в Python
  6. Управление виртуальными средами в Python
  7. Работа с массивами в Numpy
  8. Рекурсия для обращения строки
  9. Работа с модулем bisect
  10. Разделение строк методом split()
  11. Оптимизация гиперпараметров с Scikit Optimize
  12. Оптимизация памяти с slots
  13. Мощь вложенных функций в Python
  14. Создание вложенных циклов for
  15. Работа с файлами в Python
  16. Работа с defaultdictами в Python
  17. Создание копии итератора
  18. Удаление элементов из списка
  19. Декораторы с аргументами в Python
  20. Удаление элемента из списка в Python
  21. Просмотр файла в Jupyter Noteboo
  22. Создание объекта timedelta
  23. Нахождение отличий в списках
  24. Глобальные переменные в Python
  25. Работа со слайсами
  26. Функция zip() в Python
  27. Определение локальных переменных в Python
  28. Работа с файлами в Python
  29. Декораторы в Python
  30. Функции-генераторы в Python
  31. Обновление и получение данных в SQLite
  32. Протокол управления контекстом
  33. Присвоение и ссылки
  34. Метод count() для списков
  35. Изменение элемента списка
  36. Использование html-скриптов в Jupyter Notebook
  37. Переопределение метода sub
  38. JMESPath в Python
  39. Структуры данных в Python
  40. Математические функции в Python
  41. Получение текущего времени в Python
  42. Работа с датами в Python
  43. Управление сессиями в Python
  44. Сложение матриц в NumPy
  45. Область видимости переменных
  46. Функция enumerate() в Python
  47. Работа с *args и **kwargs в Python
  48. Измерение времени выполнения кода

Marketello читают маркетологи из крутых компаний