Курс Python → Beautiful Soup — извлечение данных из HTML

Beautiful Soup — это удобная Python-библиотека, которая используется для извлечения данных из HTML и XML-файлов. Когда вы работаете с веб-страницами, часто бывает необходимо извлечь определенную информацию, и именно в этом поможет Beautiful Soup. Она позволяет проводить разбор HTML-кода и находить нужные элементы для дальнейшей обработки.

Основное преимущество Beautiful Soup заключается в том, что она предоставляет простые методы для навигации по дереву HTML-кода. Вы можете легко находить нужные теги, атрибуты, текстовые данные и многое другое. Кроме того, библиотека позволяет проводить изменения в структуре разбора, что делает ее очень гибкой и удобной в использовании.

Одной из ключевых особенностей Beautiful Soup является ее способность обрабатывать даже сломанный HTML. Веб-страницы могут содержать ошибки в разметке, неправильно закрытые теги и другие проблемы, но это не станет преградой для библиотеки. Она все равно сможет извлечь нужные данные, что делает ее незаменимым инструментом при парсинге веб-страниц.

from bs4 import BeautifulSoup
import requests

# Получаем HTML-код страницы
url = 'https://www.example.com'
response = requests.get(url)
html = response.text

# Создаем объект Beautiful Soup
soup = BeautifulSoup(html, 'html.parser')

# Ищем все теги 
links = soup.find_all('a')

# Выводим найденные ссылки
for link in links:
    print(link.get('href'))

В приведенном выше примере кода мы используем Beautiful Soup для парсинга HTML-кода веб-страницы. Мы отправляем запрос на указанный URL, получаем HTML-код страницы и затем создаем объект Beautiful Soup. Далее мы ищем все теги (ссылки) и выводим их адреса. Таким образом, с помощью библиотеки легко можно извлечь нужные данные и провести необходимую обработку.

Твои коллеги будут рады, поделись в

Другие уроки курса "Python"

  1. Операции со строками в Python
  2. Использование type hints
  3. Работа с deque в Python
  4. Циклы в Python
  5. Измерение времени выполнения с помощью time
  6. Генерация резюме в Gensim
  7. Каналы Senior: Python, Java, Frontend, SQL, C++
  8. Список методов и атрибутов
  9. Переворот строки с помощью срезов
  10. Списки в Python: синтаксис представления
  11. Работа с аргументами командной строки
  12. Измерение времени выполнения кода
  13. Python enumerate() функции
  14. Функция count() в Python
  15. Модуль itertools: эффективная работа с итераторами
  16. Создание списка через итерацию
  17. Функция product() из itertools
  18. Получение срезов итераторов
  19. Защита данных в Python
  20. Переименование файлов в Python
  21. Проблемы с именами переменных
  22. Форматирование данных с помощью pprint
  23. Python union() функция — объединение множеств
  24. Фильтрация последовательности
  25. Сортировка элементов с OrderedDict
  26. Операции с датами в Python
  27. Метод ifloordiv для пользовательских классов
  28. Работа с WindowsPath()
  29. Склеивание строк без циклов
  30. Хранение данных с помощью dataclasses
  31. Работа с необработанными строками
  32. Обрезка изображения с Pillow
  33. Переопределение метода __rshift__
  34. Форматирование объектов с модулем pprint
  35. Dict Comprehension в Python
  36. Карта бомбоубежищ в Москве и Питере
  37. Оператор объединения словарей
  38. Python: Фильтрация списков с помощью filter()
  39. Разделение строки на пары ключ-значение.
  40. Очистка вывода в Python
  41. Функции в Python
  42. Непрерывная проверка в Python
  43. Регистрация на TenChat
  44. Установка виртуального окружения Python
  45. Сортировка и обратный порядок
  46. Извлечение данных из JSON
  47. Взаимодействие с внешними процессами в Python

Marketello читают маркетологи из крутых компаний