Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Блок else в циклах.
  2. Методы и функции в Python
  3. Распаковка значений в Python
  4. Метод count в Python: почему count(», ») возвращает 4?
  5. Использование defaultdict в Python
  6. Генерация ключей RSA
  7. Функция divmod() в Python
  8. Получение локальных переменных в Python
  9. Объединение списков с использованием itertools.chain
  10. Сериализация и десериализация объектов
  11. Функция all() в Python
  12. Оптимизация гиперпараметров с Scikit Optimize
  13. Генератор данных в Keras
  14. Функция reversed() в Python
  15. Блок try…finally в Python
  16. Проверка вхождения подстроки
  17. Удаление ключа из словаря в Python
  18. Метод setdefault() в Python
  19. Создание комплексных чисел
  20. Методы работы со строками в Python
  21. Открытие и запись файлов
  22. Построение графиков в Matplotlib
  23. Установка User-Agent в Python
  24. Установка и загрузка Instaloader
  25. Обмен переменными в Jupyter
  26. Создание и обучение модели с Keras
  27. Замыкания в Python
  28. Декораторы в Python
  29. Добавление элементов в список: append() vs extend()
  30. Применение функций в Python
  31. Генераторы в Python
  32. Создание вложенного генератора
  33. Установка и использование Python-dateutil
  34. Оператор assert в Python
  35. Проверка версии Python
  36. Протокол управления контекстом
  37. Работа с YAML в Python: PyYAML.
  38. Работа с пользовательским вводом
  39. Декораторы в Python
  40. Взаимодействие с внешними процессами в Python
  41. Отправка поздравлений по дню рождения
  42. Срез списка в Python
  43. Работа с контекстными переменными
  44. Генераторы в Python
  45. Фильтрация последовательности

Marketello читают маркетологи из крутых компаний