Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Подробная информация о %pinfo
  2. Работа с WindowsPath()
  3. Метод pop() списка
  4. discard() — удаление элемента из множества
  5. Введение в Python
  6. Перемешивание списка с shuffle()
  7. Оператор «or» в Python
  8. Работа со словарями в Python
  9. Установка и использование Logzero
  10. Работа с Enum в Python3.
  11. Разработка игры Pong с turtle
  12. Установка и использование Python-dateutil
  13. Цикл for в Python
  14. Обработка ошибок ввода данных
  15. Python union() функция — объединение множеств
  16. Область видимости переменных
  17. Генераторы списков в Python
  18. Создание и инициализация объектов
  19. Избегайте изменяемых аргументов
  20. Работа с аргументами командной строки
  21. Объединение множеств в Python
  22. Оператор continue в Python
  23. Преобразование текста в речь с Python
  24. Форматирование строк в Python
  25. Метод bool() в Python
  26. Генераторные выражения и islice.
  27. Возведение в квадрат с помощью itertools
  28. Работа с функцией next() в Python
  29. Модуль xkcd: загрузка комиксов
  30. Lambda Functions in Python
  31. Подсчет частоты элементов с Counter
  32. Аннотации типов в Python
  33. Создание namedtuple списком полей
  34. Генератор надежных паролей
  35. Комментарии в Python
  36. Форматирование заголовков в Python
  37. Передача неизвестных аргументов в Python.
  38. Функция pow() — возвести число в степень
  39. Форматирование строк с % в Python
  40. Генератор чисел Фибоначчи
  41. GitHub в Telegram: подписка на уведомления
  42. TON Smart Challenge #2: участие и подготовка
  43. Инверсия списка и строки
  44. Создание детектора плагиата
  45. Генераторы в Python
  46. Работа с географическими данными.
  47. Бесконечная проверка в Python

Marketello читают маркетологи из крутых компаний