Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Списки в Python: основы
  2. Виртуальное окружение Python
  3. Определение объема памяти объекта
  4. Установка и использование howdoi
  5. Работа с файловой системой в Python
  6. Работа с модулем cmath
  7. Вызов внешних программ в Python с помощью sh
  8. Генерация чисел с range()
  9. Различия символов в Python
  10. Получение идентификатора объекта в памяти
  11. Python Enumerate
  12. Освобождение памяти в Python
  13. Модуль itertools: комбинации и перестановки
  14. Работа с контекстными менеджерами
  15. Именование переменных в Python
  16. Принципы LSP и ISP в Python
  17. Python: отличительная особенность — отступы
  18. Использование подчеркивания в REPL
  19. Поиск шаблона в начале строки
  20. Lambda-функция в Python: использование с map() и sum()
  21. Декораторы в Python
  22. Любовь к Python
  23. Цикл for с enumerate() в Python
  24. Оптимизация памяти в Python
  25. Создание новых списков в Python
  26. Безопасные SQL-запросы в Python 3.11
  27. Создание пустых функций и классов в Python
  28. PrettyTable: создание таблицы
  29. Явный импорт в Python
  30. Применение функции map() с лямбда-функциями
  31. Извлечение новостей с помощью newspaper3k
  32. Округление банкира в Python
  33. Изменение элемента списка
  34. Удаление дубликатов с помощью множеств
  35. Замена переменных в Python
  36. Генераторы в Python
  37. Работа с байтовыми строками в Python
  38. Создание коллекций из выражения-генератора
  39. Разделение строки на пары ключ-значение.
  40. Настройка нарезки списков
  41. Выражения-генераторы в Python
  42. Метод radd для пользовательских чисел
  43. Упрощенный вывод данных в Python
  44. Numpy: разбиение массивов
  45. Вычисление фазы комплексного числа

Marketello читают маркетологи из крутых компаний