Курс Python → Beautiful Soup — извлечение данных из HTML

Beautiful Soup — это удобная Python-библиотека, которая используется для извлечения данных из HTML и XML-файлов. Когда вы работаете с веб-страницами, часто бывает необходимо извлечь определенную информацию, и именно в этом поможет Beautiful Soup. Она позволяет проводить разбор HTML-кода и находить нужные элементы для дальнейшей обработки.

Основное преимущество Beautiful Soup заключается в том, что она предоставляет простые методы для навигации по дереву HTML-кода. Вы можете легко находить нужные теги, атрибуты, текстовые данные и многое другое. Кроме того, библиотека позволяет проводить изменения в структуре разбора, что делает ее очень гибкой и удобной в использовании.

Одной из ключевых особенностей Beautiful Soup является ее способность обрабатывать даже сломанный HTML. Веб-страницы могут содержать ошибки в разметке, неправильно закрытые теги и другие проблемы, но это не станет преградой для библиотеки. Она все равно сможет извлечь нужные данные, что делает ее незаменимым инструментом при парсинге веб-страниц.

from bs4 import BeautifulSoup
import requests

# Получаем HTML-код страницы
url = 'https://www.example.com'
response = requests.get(url)
html = response.text

# Создаем объект Beautiful Soup
soup = BeautifulSoup(html, 'html.parser')

# Ищем все теги 
links = soup.find_all('a')

# Выводим найденные ссылки
for link in links:
    print(link.get('href'))

В приведенном выше примере кода мы используем Beautiful Soup для парсинга HTML-кода веб-страницы. Мы отправляем запрос на указанный URL, получаем HTML-код страницы и затем создаем объект Beautiful Soup. Далее мы ищем все теги (ссылки) и выводим их адреса. Таким образом, с помощью библиотеки легко можно извлечь нужные данные и провести необходимую обработку.

Твои коллеги будут рады, поделись в

Другие уроки курса "Python"

  1. Определение объема памяти объекта
  2. Быстрый поиск кода
  3. Итераторы в Python
  4. Фильтрация элементов с помощью islice
  5. Использование модуля __future__
  6. Лямбда-функции в Python
  7. Печать календаря в Python
  8. Извлечение аудио из видео
  9. Преобразование объекта в строку
  10. Логирование с Loguru
  11. Обновление шаблона base.html
  12. Python 3.12: переиспользование кавычек
  13. Использование html-скриптов в Jupyter Notebook
  14. Работа с JSON в Python
  15. Аннотации типов в Python
  16. Повторение и перенос строки
  17. Работа с Path в Python
  18. Вывод сложных структур данных с помощью pprint
  19. Возврат нескольких значений
  20. Отладчик pdb: начало работы
  21. Итераторы с потерямиZIP
  22. Умножение строк и списков
  23. Поиск индекса элемента
  24. Сравнение объектов в Python
  25. Удаление эмодзи с помощью pandas
  26. Измерение времени выполнения кода
  27. Форматирование строк с % в Python
  28. Особенности множеств в Python
  29. Статическая типизация в Python
  30. Форматирование строк в Python.
  31. Протокол управления контекстом
  32. Тип данных TypeVarTuple
  33. Разделение строк в Python
  34. Разработка Telegram-ботов
  35. Удаление falsy-значений из списка с помощью filter
  36. Преобразование текста в нижний регистр
  37. Парсинг статей с Newspaper3k
  38. JMESPath в Python
  39. Изменяемые и неизменяемые объекты
  40. Переопределение унарных операторов
  41. Обработка StopIteration в Python
  42. Списки в Python: синтаксис представления
  43. Отрицательные индексы списков
  44. Форматирование строк с f-строками
  45. Работа с файлами в Python
  46. Работа с путями в Python
  47. Многопоточность и асинхронное программирование в Python

Marketello читают маркетологи из крутых компаний