Курс Python → Парсинг веб-страниц с Beautiful Soup

Веб-парсинг — это процесс извлечения данных с веб-страниц с целью их анализа или использования в других приложениях. Для этой задачи существует множество библиотек на Python, одними из самых популярных являются Beautiful Soup и Scrapy.

Beautiful Soup — это библиотека, которая позволяет удобно парсить HTML и XML документы. Она предоставляет простой интерфейс для навигации по дереву HTML и извлечения нужных данных. Например, с помощью Beautiful Soup можно легко найти все ссылки на странице или извлечь текст из определенных тегов.

Scrapy — это более мощный инструмент для веб-парсинга, который позволяет создавать полноценные веб-пауки для автоматического сбора данных с нескольких страниц или сайтов. С его помощью можно настраивать правила извлечения данных, обходить различные ограничения и сохранять результаты в нужном формате.

Давайте рассмотрим пример использования Beautiful Soup для получения значения валюты по сравнению с долларом США. Допустим, у нас есть HTML страница с курсами валют, и нам нужно извлечь значение валюты по отношению к доллару. Мы можем использовать Beautiful Soup для поиска нужной информации в HTML коде и извлечения ее. Пример кода может выглядеть следующим образом:

from bs4 import BeautifulSoup
import requests

url = 'https://example.com/currency'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

currency_value = soup.find('span', {'class': 'currency-value'}).text
print(currency_value)

В данном примере мы отправляем GET запрос на страницу с курсами валют, загружаем HTML код, создаем объект Beautiful Soup и используем метод find для поиска элемента с определенным классом. Затем мы извлекаем текст из этого элемента и выводим его на экран. Таким образом, мы можем легко получить нужные данные с веб-страницы с помощью Python и Beautiful Soup.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Генерация случайных чисел Python
  2. Цикл while в Python
  3. Замена текста с re.sub()
  4. Проверка строки на палиндром
  5. Генераторы в Python
  6. Измерение времени выполнения кода
  7. Сортировка в Python
  8. Регистрация на курсы SF Education
  9. Оператор is в Python
  10. Объединение словарей в Python
  11. Вызов внешних программ в Python с помощью sh
  12. Объединение словарей в Python
  13. Метод rpow в Python
  14. Измерение времени выполнения
  15. Progress с библиотекой tqdm
  16. Сортировка слиянием
  17. Регистрация на TenChat
  18. Установка и использование Logzero
  19. Область видимости переменных
  20. Декораторы с @wraps
  21. Создание генераторов
  22. Удаление первого элемента списка
  23. Присвоение значений переменным в Python
  24. Оператор объединения словарей
  25. Проверка класса объекта
  26. Передача параметров в Python
  27. Оператор in для Python
  28. Установка и использование pyshorteners
  29. Python и Юникод: работа с цифрами
  30. Получение локальных переменных в Python
  31. Проверка индексов коллекции
  32. Регистрация на хакатоне
  33. Defaultdict в Python
  34. Подсчет элементов в Python
  35. Работа с очередями в Python
  36. Удаление специальных символов с помощью re.sub
  37. Форматирование строк в Python
  38. Создание вложенного генератора
  39. PrettyTable: создание таблицы
  40. Подписка на каналы разработчиков
  41. Отслеживание выполнения программы с библиотекой tqdm
  42. Создание циклической ссылки
  43. Генерация UUID в Python
  44. Работа с пакетами
  45. Работа с контекстным менеджером Pool

Marketello читают маркетологи из крутых компаний