Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Сравнение def и lambda функций в Python
  2. Доступ к локальным переменным
  3. Поиск повторов в списке
  4. Метод rrshift для пользовательских объектов
  5. Генерация чисел с range()
  6. Объединение коллекций в Python
  7. Возврат нескольких значений из функции
  8. Область видимости переменных
  9. Поиск простых чисел
  10. Фильтрация списка чисел
  11. Избегайте пустого списка
  12. Метод get() в Python
  13. Использование super() в Python
  14. Monkey Patching в Python
  15. Работа с аргументами командной строки
  16. Транспонирование 2D-массива с помощью zip
  17. Тестирование с responses
  18. JMESPath в Python
  19. Создание и обучение модели с Keras
  20. Управление IP-адресами через прокси
  21. Изменение регистра данных
  22. Атрибуты класса и экземпляра в Python
  23. Принципы программирования
  24. Форматирование строк в Python
  25. Использование обратной косой черты в f-строках
  26. Компиляция регулярных выражений
  27. Конкатенация строк в Python
  28. Конвертация текстовых чисел с помощью Numerizer
  29. Комментарии в Python
  30. Функция enumerate в Python
  31. Работа со временем в Python
  32. Атрибуты массивов в Numpy
  33. Enum в Python
  34. Преобразование букв в нижний регистр
  35. Создание словарей и множеств в Python.
  36. Beautiful Soup — извлечение данных из HTML
  37. Использование подчеркивания в REPL
  38. Бесконечная проверка в Python
  39. Создание инструмента обнаружения плагиата
  40. Вычисление натуральных логарифмов в NumPy
  41. Работа с NumPy.linalg
  42. Работа с рекламными данными в Pandas
  43. Логирование с Loguru
  44. Python defaultdict добавление ключа
  45. Colorama: окрашивание текста в Python
  46. Объединение словарей в Python
  47. Замеры производительности в Python

Marketello читают маркетологи из крутых компаний