Курс Python → Очистка данных в Python

Для дальнейшей обработки данных в Python часто приходится выполнять различные манипуляции с датафреймами. Одним из способов очистки данных является удаление ненужных столбцов, создание новых столбцов на основе существующих данных или удаление строк, не соответствующих определенным условиям.

Например, если у нас есть датафрейм с несколькими столбцами, нам может потребоваться удалить столбцы с определенными именами. Для этого можно воспользоваться методом drop, указав нужные столбцы в параметре columns. Новый датафрейм с отброшенными столбцами будет возвращен в качестве результата.


new_df = df.drop(columns=['Id', 'Name']).copy()

Также часто требуется проверить значения в столбце на определенное условие и сохранить только те строки, которые соответствуют этому условию. Например, если мы хотим сохранить только строки, в которых значение столбца Type равно ‘frozen’ или ‘green’, можно воспользоваться логическим индексированием.


filtered_df = df[df['Type'].isin(['frozen', 'green'])].copy()

Таким образом, путем комбинации различных методов работы с датафреймами в Python можно эффективно очищать данные от ненужной информации и подготавливать их для дальнейшего анализа или использования.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Функция с *args.
  2. Метод classmethod
  3. Проверка строки на палиндром
  4. Проверка типа данных
  5. Закрытие файла в Python
  6. Функция map() и ленивая оценка
  7. Создание словаря с значением по умолчанию
  8. Повторение элементов списков
  9. Сериализация данных в JSON с помощью json.dumps
  10. Декоратор total_ordering для класса Point
  11. Декораторы с @wraps
  12. Описание скриптов в README
  13. Объединение списков в Python.
  14. Подсчет вхождений элементов
  15. PUT запрос для обновления данных
  16. Решатель судоку на Python с pygame
  17. Разность множеств
  18. Методы и функции в Python
  19. Сортировка HTML по CSS-селектору
  20. Виртуальные среды в Python
  21. Подсчет элементов с помощью Counter из collections
  22. Метод join() с набором
  23. Декораторы в Python
  24. Переопределение метода __lshift__
  25. Замена элементов в списке с помощью генераторов списков
  26. Логирование с Logzero: ротация файла
  27. Удаление дубликатов из списка с помощью dict.fromkeys
  28. Сортировка списка по индексам
  29. Принципы Zen of Python
  30. Освобождение памяти в Python
  31. Работа с изменяемыми списками
  32. Работа с OpenCV
  33. Добавление элемента к кортежу
  34. Методы работы со строками в Python
  35. Сортировка с параметром key
  36. Работа с датами в Python
  37. Транспонирование 2D-массива с помощью zip
  38. Руководство по Pymorphy2
  39. Замена текста с помощью sub
  40. Создание новых списков в Python
  41. Анонимные функции в Python
  42. Преобразование генераторов в циклы
  43. Сортировка HTML-элементов
  44. Создание новых функций через partial
  45. Управление пакетами с pip
  46. Оператор «not» в Python
  47. Метод __float__ в Python
  48. Отслеживание выполнения программы с библиотекой tqdm
  49. Поиск кода

Marketello читают маркетологи из крутых компаний