Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Python и Юникод: работа с цифрами
  2. Использование defaultdict в Python
  3. Преобразование типов данных в set comprehension
  4. Оптимизация памяти с помощью __slots__
  5. Срезы в Numpy
  6. Метод rmatmul для пользовательских матриц
  7. Логирование в Python
  8. Глобальные переменные в Python
  9. Использование type hints
  10. Работа с множествами в Python
  11. Декоратор @override
  12. Метод Event.wait() в Python
  13. Combobox в Tkinter
  14. Замыкания в Python
  15. OrderedDict — упорядоченный словарь
  16. Функции высшего порядка в Python
  17. Объединение словарей в Python
  18. Замер времени выполнения кода
  19. Путь к интерпретатору Python
  20. Генераторы в Python
  21. Просмотр атрибутов и методов класса
  22. Удаление файлов с shutil.os.remove()
  23. Логические значения в Python
  24. Проблемы с dict в Python
  25. Импорт с альтернативным именем
  26. Измерение времени выполнения кода
  27. Печать календаря в Python
  28. Руководство по Pymorphy2
  29. Рекурсия для обращения строки
  30. Обработка аргументов Python
  31. Копирование файлов с shutil()
  32. Списковый компрехеншен.
  33. Переворот списка в Python
  34. Получение частей дроби
  35. Принципы LSP и ISP в Python
  36. Метод get для словаря
  37. List Comprehension Tutorial
  38. Python UserString — создание подклассов строк
  39. Оператор del в Python
  40. Ноутбуки AMD Ryzen ™ 4000: мощность и эффективность
  41. Метод Enumerate() для списков
  42. Измерение потребления памяти при сортировке
  43. Получение текущей директории
  44. Функции any() и all() в Python
  45. Замена текста с помощью sub
  46. Функция zip() в Python
  47. Создание копии итератора
  48. Применение промокода в Много лосося

Marketello читают маркетологи из крутых компаний