Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Порядок операций в Python
  2. Работа с часовыми поясами в Python.
  3. Преобразование строки в число
  4. Печать списка с помощью метода join
  5. Применение функции к элементам списка
  6. Конкатенация строковых литералов
  7. Типы возвращаемых значений в Python
  8. Python Аргументы по умолчанию
  9. Синхронизация потоков с time.sleep()
  10. Ограничение итераций в Python
  11. Генерация QR-кодов с Python
  12. Печать месячного календаря
  13. Оформление кода по PEP 8
  14. Хэш-функции в Python
  15. Извлечение аудио из видео
  16. Генераторы в Python
  17. Retrying в Python: повторные вызовы
  18. Метод matmul для умножения матриц
  19. Функция all() в Python
  20. Логирование с Logzero
  21. Назначение максимального и минимального значения переменной в Python.
  22. Функция rsplit() в Python
  23. Скачать видео с YouTube
  24. Работа со строками в Python
  25. Применение функции map() в Python
  26. Вычисление натурального логарифма в NumPy
  27. Извлечение новостей с помощью newspaper3k
  28. Настройка Cron
  29. JSON в Python: модуль, dump, dumps, load
  30. Определение объема памяти объекта
  31. Работа с getopt
  32. Перевод эмодзи и эмотиконов.
  33. Функция eval() в Python
  34. Отслеживание выполнения программы с библиотекой tqdm
  35. Создание задания в Cron
  36. Генераторы по генератору
  37. Работа со словарями Python
  38. Разделение строки в Python
  39. Списковое включение в Python
  40. Профилирование с Pandas
  41. Измерение времени выполнения в Python
  42. Инициализация структур данных
  43. Особенности ключей словаря в Python
  44. Создание списка дат
  45. Отладка производительности Python
  46. Colorama: окрашивание текста в Python
  47. Деление в Python

Marketello читают маркетологи из крутых компаний