Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Поиск индексов в списке
  2. Ноутбуки AMD Ryzen ™ 4000: мощность и эффективность
  3. Удаление ссылок в Python
  4. Установка и использование модуля «howdoi»
  5. Проверка индексов коллекции
  6. f-строки в формате строк
  7. Применение функции к каждому элементу списка
  8. Функции map() и reduce() в Python
  9. Операторы объединения в Python 3.9
  10. Работа со строками в Python
  11. Работа с контекстным менеджером Pool
  12. Разработка игры Pong с turtle
  13. JSON в Python: модуль, dump, dumps, load
  14. Преобразование типов данных в set comprehension
  15. Dict Comprehension в Python
  16. Определение наиболее частого элемента с помощью collections.Counter
  17. Извлечение данных из JSON
  18. Цепные операции в Python
  19. Библиотека sh: удобные команды терминала
  20. Оператор Walrus: правильное использование
  21. Приоритет операций в Python
  22. Сложение матриц в NumPy
  23. Вывод сложных структур данных с помощью pprint
  24. Сложные типы данных в Python
  25. Конкатенация строк с методом join()
  26. Декораторы в Python
  27. Создание списка через цикл
  28. Удаление эмодзи с помощью pandas
  29. Создание словарей и множеств в Python.
  30. Логирование с Logzero
  31. Измерение времени выполнения кода
  32. Изменение элемента списка
  33. Работа с геоданными с помощью geopy
  34. Многострочные комментарии в Python
  35. Удаление элементов из списка в Python.
  36. Векторизация в Python с NumPy.
  37. Регистрация на хакатоне
  38. Структурирование именованных констант
  39. Инициализация переменных
  40. Работа с collections в Python
  41. Пустой оператор pass в Python
  42. Поиск всех индексов подстроки
  43. Возврат нескольких значений
  44. Сортировка в Python

Marketello читают маркетологи из крутых компаний