Курс Python → Очистка данных в Python

Для дальнейшей обработки данных в Python часто приходится выполнять различные манипуляции с датафреймами. Одним из способов очистки данных является удаление ненужных столбцов, создание новых столбцов на основе существующих данных или удаление строк, не соответствующих определенным условиям.

Например, если у нас есть датафрейм с несколькими столбцами, нам может потребоваться удалить столбцы с определенными именами. Для этого можно воспользоваться методом drop, указав нужные столбцы в параметре columns. Новый датафрейм с отброшенными столбцами будет возвращен в качестве результата.


new_df = df.drop(columns=['Id', 'Name']).copy()

Также часто требуется проверить значения в столбце на определенное условие и сохранить только те строки, которые соответствуют этому условию. Например, если мы хотим сохранить только строки, в которых значение столбца Type равно ‘frozen’ или ‘green’, можно воспользоваться логическим индексированием.


filtered_df = df[df['Type'].isin(['frozen', 'green'])].copy()

Таким образом, путем комбинации различных методов работы с датафреймами в Python можно эффективно очищать данные от ненужной информации и подготавливать их для дальнейшего анализа или использования.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Генератор списка в Python
  2. Синтаксис переменных цикла в Python
  3. Обработка исключений в Python
  4. Добавление элементов в список: append() vs extend()
  5. Оператор морж в Python 3.8
  6. Списки в Python: основы
  7. Работа с комбинациями в Python.
  8. Ошибка NotImplemented в Python
  9. Управление памятью в numpy.
  10. Преобразование чисел в слова
  11. Лямбда-функции в Python
  12. Numpy: разбиение массивов
  13. Объединение словарей в Python
  14. Оформление текста в консоли с TermColor
  15. Использование подчеркивания в REPL
  16. Удаление URL-адресов в Python
  17. Функция zip() — объединение последовательностей
  18. Поиск email
  19. Лямбда-функции в цикле
  20. Сортировка данных с лямбда-функциями
  21. Символ подчеркивания в Python
  22. Работа с часовыми поясами в Python.
  23. Генераторы данных
  24. Закрытие файла в Python
  25. Возврат нескольких значений
  26. Циклы в Python
  27. Тестирование модели в PyTorch
  28. Модуль inspect: получение информации о объектах
  29. Фильтрация элементов с помощью islice
  30. Метод get для словарей
  31. Проектирование Singleton с метаклассом
  32. Преобразование букв в нижний регистр
  33. Условные выражения в Python
  34. Работа с пакетами
  35. Оператор «or» в Python
  36. Использование super() в Python
  37. Метод pop() списка
  38. Удаление элемента из списка в Python
  39. Сложные типы данных в Python
  40. Получение списка кортежей из словаря
  41. Списки: объединение, изменение
  42. Множественное назначение в Python
  43. Область видимости переменных
  44. Типы возвращаемых значений в Python
  45. Основные функции и модули Python
  46. Итераторы в Python
  47. Распаковка элементов массива
  48. Работа с датами в Python

Marketello читают маркетологи из крутых компаний