Курс Python → Очистка данных в Python

Для дальнейшей обработки данных в Python часто приходится выполнять различные манипуляции с датафреймами. Одним из способов очистки данных является удаление ненужных столбцов, создание новых столбцов на основе существующих данных или удаление строк, не соответствующих определенным условиям.

Например, если у нас есть датафрейм с несколькими столбцами, нам может потребоваться удалить столбцы с определенными именами. Для этого можно воспользоваться методом drop, указав нужные столбцы в параметре columns. Новый датафрейм с отброшенными столбцами будет возвращен в качестве результата.


new_df = df.drop(columns=['Id', 'Name']).copy()

Также часто требуется проверить значения в столбце на определенное условие и сохранить только те строки, которые соответствуют этому условию. Например, если мы хотим сохранить только строки, в которых значение столбца Type равно ‘frozen’ или ‘green’, можно воспользоваться логическим индексированием.


filtered_df = df[df['Type'].isin(['frozen', 'green'])].copy()

Таким образом, путем комбинации различных методов работы с датафреймами в Python можно эффективно очищать данные от ненужной информации и подготавливать их для дальнейшего анализа или использования.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Список импортированных модулей в Python
  2. Логические операторы в Python
  3. Подписка на SelectelNews в Twitter
  4. Особенности множеств в Python
  5. Использование модуля __future__
  6. Распаковка элементов последовательности
  7. Создание копии списка в Python
  8. Библиотека schedule: планировщик задач
  9. Работа со стеком в Python
  10. Преобразование строк в числа с плавающей запятой
  11. Транспонирование 2D-массива с помощью zip
  12. Бесконечная проверка в Python
  13. Декораторы с аргументами в Python
  14. Переопределение метода __floordiv__
  15. Запуск внешнего кода в Jupyter
  16. Измерение времени выполнения в Python
  17. Деление в Python
  18. Работа с классами данных
  19. Просмотр атрибутов и методов класса
  20. Особенности запятых в Python
  21. Метод __complex__ в Python
  22. Ускоренный импорт библиотек
  23. Обработка исключений в Python
  24. Проверка подстроки в строке
  25. Хэш-функции в Python
  26. Лямбда-функции в Python
  27. Оператор обр. импликации
  28. Синхронизация доступа к ресурсам
  29. Расчет времени выполнения программы
  30. Defaultdict в Python
  31. Создание словарей и множеств в Python.
  32. Работа с GitHub в Telegram
  33. Проверка версии Python
  34. Генерация строк с .join()
  35. Импорт модулей и пакетов в Python
  36. Оптимизация памяти с __slots__
  37. Декодирование строк в Python
  38. Метод join() для объединения элементов строки
  39. Оператор match в Python
  40. Обход элементов в Python
  41. OrderedDict — упорядоченный словарь
  42. Очистка данных с помощью pandas

Marketello читают маркетологи из крутых компаний