Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Форматирование строк в Python
  2. Работа с комплексными числами
  3. Установка и загрузка Instaloader
  4. Преобразование строки в число
  5. Модуль sys: основы
  6. Вложенные функции в Python
  7. Namedtuple в Python
  8. Метод сравнения объектов в Python
  9. Преобразование Excel в PDF с Spire.XLS
  10. Функция с *args.
  11. Работа с IP-адресами в Python
  12. Обработка исключений с блоком else
  13. Нахождение максимального значения и его индекса в списке
  14. Python Метод del.
  15. Упрощение работы с JSON-данными в Python
  16. Разделение строки на пары ключ-значение.
  17. Хранение переменных в словаре.
  18. Операции со строками в Python
  19. Обратное распространение ошибки
  20. Преобразование генераторов в циклы
  21. Возведение в квадрат с помощью itertools
  22. Отладчик pdb: начало работы
  23. Оператор * в Python
  24. Вывод букв строки в Python
  25. Освобождение памяти в Python
  26. Классы данных в Python
  27. Сортировка с параметром key
  28. Работа с множествами в Python
  29. Enum в Python
  30. Создание комплексных чисел
  31. Создание словарей в Python
  32. Комментарии в Python
  33. Создание виртуальной среды
  34. Декоратор Ajax required
  35. Удаление ключа из словаря в Python
  36. Применение функции к элементам списка
  37. TON Smart Challenge #2: участие и подготовка
  38. Преобразование типов данных в set comprehension
  39. Игра «Виселица» на Python
  40. Логические операторы в Python
  41. Работа с итераторами через срезы
  42. Просмотр внешних файлов в %pycat
  43. Работа с эмодзи в Python
  44. Функция __init__ в Python

Marketello читают маркетологи из крутых компаний