Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Настройка Cron
  2. Сериализация объектов в Python
  3. Объединение множеств в Python
  4. Объединение списков в Python
  5. Оператор in для Python
  6. Сглаживание списка
  7. Многострочные строки в Python
  8. Разделение строки в Python
  9. Логирование с Logzero
  10. Список импортированных модулей в Python
  11. Вложенные функции в Python
  12. Лямбда-функции в Python
  13. Импорт объектов из модулей
  14. Сохранение и загрузка модели в PyTorch
  15. Работа со слайсами
  16. Цикл for с enumerate() в Python
  17. Метод __call__ в Python
  18. Использование подчеркивания в REPL
  19. Стать Python-разработчиком
  20. Python enumerate() использование
  21. Функция enumerate() в Python
  22. Список переменных с %who
  23. Метод clear для коллекций
  24. Переопределение метода delitem в Python
  25. Добавление Progressbar в Python
  26. Печать календаря в Python
  27. Операция += для списков
  28. Подписка на SelectelNews в Twitter
  29. Получение обратного списка чисел
  30. Фильтрация входных данных в Python
  31. Проверка типов с помощью isinstance
  32. Функции в одну строку
  33. Правила именования переменных
  34. Разработка игры Pong с turtle
  35. Определение объема памяти объекта
  36. Делегирование в Python
  37. Избегайте двойного подчеркивания
  38. Константы в модуле cmath
  39. Преобразование строк в числа с плавающей запятой
  40. Удаление ссылок в Python
  41. Переопределение метода
  42. Многоточие в Python
  43. Обработка ошибок в JSON данных
  44. Структура данных словарь в Python
  45. Регистрация на хакатоне
  46. Функция sleep() в Python
  47. Множественные конструкторы в Python
  48. Преобразование числа в восьмеричную строку

Marketello читают маркетологи из крутых компаний