Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Определение объема памяти объекта
  2. Работа с срезами в Numpy
  3. Сортировка данных с лямбда-функциями
  4. Создание веб-приложения с Flask
  5. Асинхронный код в Python
  6. Группы исключений в Python
  7. Поиск элементов BeautifulSoup
  8. Генераторы в Python
  9. Извлечение статей с newspaper3k
  10. Функция reversed() в Python
  11. Операции с числами в Python
  12. Python itertools combinations() — группировка элементов
  13. Преобразование чисел в Python
  14. Удаление специальных символов
  15. Форматирование строк в Python
  16. Декораторы в Python
  17. Заказ карты Тинькофф Black
  18. Python: отличительная особенность — отступы
  19. Создание словарей и множеств в Python.
  20. Установка пакета в Python
  21. Отслеживание прогресса с tqdm
  22. Удаление символов новой строки в Python.
  23. Принципы SRP и OCP
  24. Новшества Flask 2.0
  25. Распаковка элементов последовательности
  26. Сравнение def и lambda функций в Python
  27. Декораторы с аргументами в Python
  28. Создание и использование модулей в Python
  29. Установка пакетов с помощью pip
  30. Переменные в Python: сокращение гласных
  31. Мониторинг работы программы Py-spy
  32. Замена текста с помощью sub
  33. Генераторы в Python
  34. Создание копии итератора
  35. Генераторы в Python
  36. Изменение списка срезом
  37. Работа с модулем Calendar
  38. Настройка шрифта и цвета в Tkinter
  39. Преобразование символов с помощью map
  40. Управление памятью в numpy.
  41. Progress с библиотекой tqdm

Marketello читают маркетологи из крутых компаний