Курс Python → Очистка данных в Python

Для дальнейшей обработки данных в Python часто приходится выполнять различные манипуляции с датафреймами. Одним из способов очистки данных является удаление ненужных столбцов, создание новых столбцов на основе существующих данных или удаление строк, не соответствующих определенным условиям.

Например, если у нас есть датафрейм с несколькими столбцами, нам может потребоваться удалить столбцы с определенными именами. Для этого можно воспользоваться методом drop, указав нужные столбцы в параметре columns. Новый датафрейм с отброшенными столбцами будет возвращен в качестве результата.


new_df = df.drop(columns=['Id', 'Name']).copy()

Также часто требуется проверить значения в столбце на определенное условие и сохранить только те строки, которые соответствуют этому условию. Например, если мы хотим сохранить только строки, в которых значение столбца Type равно ‘frozen’ или ‘green’, можно воспользоваться логическим индексированием.


filtered_df = df[df['Type'].isin(['frozen', 'green'])].copy()

Таким образом, путем комбинации различных методов работы с датафреймами в Python можно эффективно очищать данные от ненужной информации и подготавливать их для дальнейшего анализа или использования.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Отображение графиков в Jupyter с Matplotlib
  2. Bootle — простой веб-фреймворк
  3. Изменение списка срезом
  4. Методы и функции в Python
  5. Хранение переменных в Python.
  6. Поиск HTML-элементов с BeautifulSoup
  7. Отступы в Python
  8. Объединение словарей в Python
  9. Библиотека Rich: форматирование текста
  10. Создание копии списка в Python
  11. Pillow: работа с изображениями
  12. Распаковка аргументов в Python
  13. Измерение потребления памяти при сортировке
  14. Частичное применение функций в Python
  15. Переопределение метода __pow__
  16. Оператор Walrus в Python 3.8
  17. Работа с географическими данными в Python
  18. Объединение, распаковка и деструктуризация
  19. Проверка файла .py на синтаксис.
  20. Работа с изменяемыми списками
  21. Работа с timedelta
  22. Парсинг веб-страниц с Beautiful Soup
  23. Удаление знаков препинания в Python
  24. Обход дочерних элементов BeautifulSoup
  25. Преобразование чисел в Python
  26. Именованные срезы в Python
  27. Работа с модулем bisect
  28. Приближение чисел в Python
  29. Установка Python3.7 и PIP
  30. Переопределение метода __lshift__
  31. Цикл for с enumerate() в Python
  32. Создание GUI с Tkinter: Entry
  33. Блок else в обработке исключений
  34. Метод rxor для операции побитового исключающего «или»
  35. Генераторы списков в Python
  36. Инверсия списка и строки в Python
  37. Структура данных deque в Python
  38. Оптимизация памяти с __slots__
  39. Работа с множествами в Python
  40. Упрощение условных выражений с тернарным оператором
  41. Основы Python за 14 дней
  42. Решение переменной Шредингера
  43. Блок else в циклах Python
  44. Вложенные генераторы в Python
  45. Добавление вложенных списков
  46. Карта бомбоубежищ в Москве и Питере
  47. Сортировка в Python
  48. F-строки в Python

Marketello читают маркетологи из крутых компаний