Курс Python → Beautiful Soup — извлечение данных из HTML

Beautiful Soup — это удобная Python-библиотека, которая используется для извлечения данных из HTML и XML-файлов. Когда вы работаете с веб-страницами, часто бывает необходимо извлечь определенную информацию, и именно в этом поможет Beautiful Soup. Она позволяет проводить разбор HTML-кода и находить нужные элементы для дальнейшей обработки.

Основное преимущество Beautiful Soup заключается в том, что она предоставляет простые методы для навигации по дереву HTML-кода. Вы можете легко находить нужные теги, атрибуты, текстовые данные и многое другое. Кроме того, библиотека позволяет проводить изменения в структуре разбора, что делает ее очень гибкой и удобной в использовании.

Одной из ключевых особенностей Beautiful Soup является ее способность обрабатывать даже сломанный HTML. Веб-страницы могут содержать ошибки в разметке, неправильно закрытые теги и другие проблемы, но это не станет преградой для библиотеки. Она все равно сможет извлечь нужные данные, что делает ее незаменимым инструментом при парсинге веб-страниц.

from bs4 import BeautifulSoup
import requests

# Получаем HTML-код страницы
url = 'https://www.example.com'
response = requests.get(url)
html = response.text

# Создаем объект Beautiful Soup
soup = BeautifulSoup(html, 'html.parser')

# Ищем все теги 
links = soup.find_all('a')

# Выводим найденные ссылки
for link in links:
    print(link.get('href'))

В приведенном выше примере кода мы используем Beautiful Soup для парсинга HTML-кода веб-страницы. Мы отправляем запрос на указанный URL, получаем HTML-код страницы и затем создаем объект Beautiful Soup. Далее мы ищем все теги (ссылки) и выводим их адреса. Таким образом, с помощью библиотеки легко можно извлечь нужные данные и провести необходимую обработку.

Твои коллеги будут рады, поделись в

Другие уроки курса "Python"

  1. Преобразование многоуровневого словаря
  2. Метод rxor для операции побитового исключающего «или»
  3. Возврат нескольких значений
  4. Класс-оболочка для словарей
  5. Работа с файлами в Python
  6. Оптимизация строк в Python
  7. Группировка элементов Python
  8. Транспонирование 2D-массива с помощью zip
  9. Проверка кортежей.
  10. Возврат нескольких значений
  11. Улучшенные подсказки для импорта в Python 3.12
  12. Область видимости переменных
  13. Переменные в Python
  14. Библиотека Chartify: руководство
  15. Обмен значений переменных в Python
  16. Применение функции к элементам списка
  17. Метод init в Python
  18. Хеширование паролей с солью
  19. Работа с NumPy
  20. Python: динамическая типизация и проверка типов
  21. Применение функции к каждому элементу списка
  22. Функция rsplit() в Python
  23. Создание графиков в терминале
  24. Извлечение аудио из видео
  25. Объявление переменных в Python
  26. Функция zip() в Python
  27. Оператор match в Python
  28. Порядок операций в Python
  29. Удаление символов новой строки в Python.
  30. Сортировка элементов в Python
  31. Оптимизация гиперпараметров с Scikit Optimize
  32. Метод сравнения объектов в Python
  33. Экранирование символов в Python
  34. Модуль sys: основы
  35. Преобразование строк в числа в Python
  36. Фильтрация списков с itertools
  37. Создание инструмента обнаружения плагиата
  38. Протокол управления контекстом
  39. Разделение строки на пары ключ-значение.
  40. Вычисление времени выполнения
  41. Измерение времени выполнения кода
  42. Переменные класса и экземпляра
  43. Оператор Walrus в Python
  44. Обход дочерних элементов BeautifulSoup
  45. Метод add для класса Vector
  46. Получение комбинаций в Python
  47. Установка Git и AWS CLI
  48. Хэш-функции в Python

Marketello читают маркетологи из крутых компаний