Курс Python → Beautiful Soup — извлечение данных из HTML

Beautiful Soup — это удобная Python-библиотека, которая используется для извлечения данных из HTML и XML-файлов. Когда вы работаете с веб-страницами, часто бывает необходимо извлечь определенную информацию, и именно в этом поможет Beautiful Soup. Она позволяет проводить разбор HTML-кода и находить нужные элементы для дальнейшей обработки.

Основное преимущество Beautiful Soup заключается в том, что она предоставляет простые методы для навигации по дереву HTML-кода. Вы можете легко находить нужные теги, атрибуты, текстовые данные и многое другое. Кроме того, библиотека позволяет проводить изменения в структуре разбора, что делает ее очень гибкой и удобной в использовании.

Одной из ключевых особенностей Beautiful Soup является ее способность обрабатывать даже сломанный HTML. Веб-страницы могут содержать ошибки в разметке, неправильно закрытые теги и другие проблемы, но это не станет преградой для библиотеки. Она все равно сможет извлечь нужные данные, что делает ее незаменимым инструментом при парсинге веб-страниц.

from bs4 import BeautifulSoup
import requests

# Получаем HTML-код страницы
url = 'https://www.example.com'
response = requests.get(url)
html = response.text

# Создаем объект Beautiful Soup
soup = BeautifulSoup(html, 'html.parser')

# Ищем все теги 
links = soup.find_all('a')

# Выводим найденные ссылки
for link in links:
    print(link.get('href'))

В приведенном выше примере кода мы используем Beautiful Soup для парсинга HTML-кода веб-страницы. Мы отправляем запрос на указанный URL, получаем HTML-код страницы и затем создаем объект Beautiful Soup. Далее мы ищем все теги (ссылки) и выводим их адреса. Таким образом, с помощью библиотеки легко можно извлечь нужные данные и провести необходимую обработку.

Твои коллеги будут рады, поделись в

Другие уроки курса "Python"

  1. Оформление текста в консоли с TermColor
  2. Работа с файлами в Python
  3. Запуск асинхронной корутины
  4. Измерение потребления памяти при сортировке
  5. Комплексные числа в Python
  6. Вычисление логарифмов в Python
  7. Лямбда-функции в Python
  8. Метод join() для объединения элементов строки
  9. Подсчет элементов в Python
  10. Список переменных в Python
  11. Область видимости переменных
  12. Форматирование данных с помощью pprint
  13. Обработка ошибок в Python
  14. Использование html-скриптов в Jupyter Notebook
  15. Конвертация коллекций в Python.
  16. Наследование в программировании
  17. Декораторы с аргументами в Python
  18. Метод invert для побитового отрицания
  19. Вывод букв строки в Python
  20. Форматирование строк в Python
  21. Создание GUI на Tkinter
  22. Функция с **kwargs в Python
  23. Атрибуты класса и экземпляра в Python
  24. Замена текста с помощью sub
  25. Копирование и вставка текста в Python
  26. Работа с словарями в Python
  27. Преобразование вложенного списка
  28. Метод __irshift__ для побитового сдвига вправо
  29. Именованные кортежи в Python
  30. Подсказки типов в Python
  31. Работа с парами ключ-значение
  32. Обновление ключей в Python
  33. Создание пользовательской коллекции в Python
  34. Генератор данных в Keras
  35. Сравнение строк в Python
  36. Python Enum Weekday Usage
  37. Преобразование PowerPoint в PDF.
  38. Объединение словарей в Python
  39. Python: библиотеки и функции
  40. TypedDict для kwargs в Python 3.12
  41. Удаление дубликатов из списка
  42. Работа с файлами в Python
  43. Определение размера папок в Python
  44. Оптимизация памяти с __slots__

Marketello читают маркетологи из крутых компаний