Курс Python → Очистка данных в Python

Для дальнейшей обработки данных в Python часто приходится выполнять различные манипуляции с датафреймами. Одним из способов очистки данных является удаление ненужных столбцов, создание новых столбцов на основе существующих данных или удаление строк, не соответствующих определенным условиям.

Например, если у нас есть датафрейм с несколькими столбцами, нам может потребоваться удалить столбцы с определенными именами. Для этого можно воспользоваться методом drop, указав нужные столбцы в параметре columns. Новый датафрейм с отброшенными столбцами будет возвращен в качестве результата.


new_df = df.drop(columns=['Id', 'Name']).copy()

Также часто требуется проверить значения в столбце на определенное условие и сохранить только те строки, которые соответствуют этому условию. Например, если мы хотим сохранить только строки, в которых значение столбца Type равно ‘frozen’ или ‘green’, можно воспользоваться логическим индексированием.


filtered_df = df[df['Type'].isin(['frozen', 'green'])].copy()

Таким образом, путем комбинации различных методов работы с датафреймами в Python можно эффективно очищать данные от ненужной информации и подготавливать их для дальнейшего анализа или использования.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Функция enumerate() в Python
  2. Поиск подстроки в строке
  3. Класс Counter() для подсчета элементов
  4. Извлечение аудио из видео
  5. Сравнение неупорядоченных списков
  6. Создание итератора
  7. Особенности множеств в Python
  8. Генерация фальшивых данных с Faker
  9. Сравнение объектов в Python
  10. Абстракции словарей и множеств в Python
  11. Mad Libs Generator
  12. Обновление шаблона base.html
  13. Работа с timedelta в Python
  14. Закрытие файла в Python
  15. Удаление ключа из словаря в Python
  16. Метод rmatmul для обратного матричного умножения
  17. Работа с изменяемыми списками
  18. Метод rsub для пользовательских чисел
  19. Оператор (*) в Python
  20. Счетчик ссылок в Python
  21. Создание списков в Python
  22. Преобразование чисел в восьмеричную строку
  23. Модуль pprint
  24. Разделение строки с помощью re.split()
  25. Объединение словарей в Python
  26. Извлечение статей с newspaper3k
  27. Оператор «or» в Python
  28. capitalize() — изменение регистра первого символа строки
  29. Создание инструмента обнаружения плагиата
  30. PrettyTable: создание таблицы
  31. Нан-рефлексивность в Python
  32. Форматирование строк в Python
  33. Фильтрация последовательности
  34. Работа с кортежами в Python
  35. Операции с числами в Python
  36. Именованные кортежи в Python
  37. Просмотр атрибутов и методов класса
  38. Форматирование строк в Python
  39. kwargs в Python
  40. Namedtuple в Python
  41. Тип данных TypeVarTuple
  42. Функция zip() — объединение последовательностей
  43. Особенности запятых в Python
  44. Использование type hints
  45. CLI-инструмент howdoi
  46. Метод округления чисел

Marketello читают маркетологи из крутых компаний