Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Инверсия списка/строки в Python
  2. Combobox в Tkinter
  3. Операции с матрицами в Python
  4. Оператор in для проверки наличия элемента
  5. Удаление элементов во время итерации
  6. Установка и использование emoji
  7. Хеширование паролей с использованием salt
  8. Получение текущей даты и времени
  9. Определение имен функций
  10. Перемещение и удаление файлов в Python
  11. Сравнение неупорядоченных списков
  12. Функция product() в Python
  13. Тип данных TypeVarTuple
  14. Пространство имен в Python
  15. Многострочные строки в Python
  16. Обновление ключей в Python
  17. Лямбда-функции в Python
  18. Python: динамическая типизация и проверка типов
  19. Управление доступом к модулю
  20. Форматирование данных с pprint
  21. split() — разделение строки
  22. Функции map, filter и reduce
  23. Преобразование данных в Python
  24. Lambda Functions in Python
  25. Работа с функцией next() в Python
  26. Метод rxor для операции побитового исключающего «или»
  27. Сортировка HTML-элементов
  28. Замена подстроки
  29. Метод сравнения объектов в Python
  30. Работа с YAML в Python
  31. Выражения-генераторы в Python
  32. Справка по импортированным модулям
  33. Возврат значений из генератора
  34. Создание панели меню Tkinter
  35. Проверка наличия элемента в списке
  36. Поиск индексов подстроки
  37. Асинхронное программирование с asyncio
  38. Работа с изображениями PIL
  39. Переворот строки с использованием цикла
  40. Профилирование кода на Python
  41. Слияние словарей в Python 3.9
  42. EMOT преобразование эмодзи в текст
  43. Секреты Python
  44. Работа с модулем os в Python

Marketello читают маркетологи из крутых компаний