Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Отображение HTML кода в Python
  2. Форматирование данных с pprint
  3. Работа с файлами в Python
  4. Декоратор Property в Python
  5. Модуль itertools: эффективная работа с итераторами
  6. Динамические маршруты во Flask
  7. Установка и использование howdoi
  8. Изменение логики работы с временем
  9. Обработка исключений с блоком else
  10. Переопределение метода __lshift__
  11. Извлечение данных из JSON
  12. Установка виртуального окружения Python
  13. Создание копии списка в Python
  14. Метод join() для объединения элементов
  15. Автоматизация действий с Pyautogui
  16. Применение промокода в Много лосося
  17. Показ всплывающих окон Tkinter
  18. Очистка строки в Python
  19. IPython и Jupyter Notebook: руководство
  20. Добавление элемента к кортежу
  21. Поиск уникальных и повторяющихся элементов
  22. Создание таблиц в Python с PrettyTable
  23. Создание лямбда-функций
  24. Python: возвращение нескольких значений
  25. Инверсия списка и строки в Python
  26. Создание уникального множества
  27. Генераторы в Python
  28. Сортировка и обратный порядок
  29. Группировка элементов в словарь
  30. Установка и загрузка Instaloader
  31. Нан-рефлексивность в Python
  32. Метод __irshift__ для Python
  33. Подсчет элементов в Python
  34. Приоритет операций в Python
  35. Удаление файлов и папок в Python
  36. Docstring в Python
  37. Безопасные SQL-запросы в Python 3.11
  38. Участие в LP стейкинге Waves
  39. Метод split() для разделения строк
  40. Декораторы в Python
  41. Метод join() для объединения строк
  42. Философия Python

Marketello читают маркетологи из крутых компаний