Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Работа с YAML в Python
  2. %pinfo: получение информации об объекте
  3. Псевдонимы в Python
  4. Работа с файлами в Python
  5. Работа с timedelta
  6. Создание спинбокса в tkinter
  7. Создание Telegram-бота на Python
  8. Многопроцессорное программирование в Python
  9. Измерение времени выполнения
  10. Работа с базами данных SQLite
  11. Python Enumerate
  12. Создание словарей с defaultdict
  13. Область видимости переменных
  14. Упрощение работы с JSON-данными в Python
  15. Генераторы в Python
  16. Модуль itertools: комбинации и перестановки
  17. Ограничение ресурсов в Python
  18. Объявление переменных в Python
  19. Использование обратной косой черты в f-строках
  20. Добавление Progressbar в Python
  21. Переворот последовательности
  22. Экранирование символов в Python
  23. Создание и использование ChainMap
  24. Срез списка в Python
  25. TON Smart Challenge #2: участие и подготовка
  26. Форматирование строк в Python
  27. Оптимизация поиска в словарях
  28. Оптимизация памяти в Python
  29. Работа со временем в Python
  30. Капитализация строк
  31. Создание файла с проверкой ошибки
  32. Функция eval() в Python
  33. Установка и использование Logzero
  34. Метод join() с набором
  35. Разработка Telegram-ботов
  36. Изменение элемента списка
  37. Создание словаря в Python
  38. Названия переменных
  39. Функции в одну строку
  40. Лямбда-функции в Python
  41. Основы Python
  42. Установка random seed в Python
  43. Генераторы данных
  44. Настройка логгера Logzero
  45. Преобразование строк в числа в Python

Marketello читают маркетологи из крутых компаний