Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Создание списка через цикл
  2. Разность множеств
  3. Хеширование паролей с использованием salt
  4. Атрибуты массивов в Numpy
  5. Расчет времени выполнения
  6. Перевод эмодзи и эмотиконов.
  7. Комплексные числа в Python
  8. Применение промокода в Много лосося
  9. Проверка кортежей.
  10. Изменение переменной в Python: nonlocal
  11. Работа с модулем bisect
  12. Работа с очередями в Python
  13. Метод count() для списков
  14. Подсчет элементов в Python
  15. Работа с OpenCV
  16. Синхронизация потоков с time.sleep()
  17. Декоратор @override
  18. Описание скриптов в README
  19. Удаление элементов из списка в Python
  20. Класс Counter() для подсчета элементов
  21. Сравнение def и lambda функций в Python
  22. Исключение NotImplementedError
  23. Модуль math: основные функции
  24. Переопределение метода xor в Python
  25. Аннотации типов в Python
  26. Скрытие вывода данных
  27. Функция enumerate в Python
  28. Создание словаря через dict comprehension
  29. Работа с NumPy
  30. Преобразование строки в число
  31. Преобразование регистра символов
  32. Нахождение самого длинного слова в списке с помощью max
  33. Форматирование данных с pprint
  34. Декораторы в Python
  35. Перевернуть список в Python
  36. Библиотека Chartify: руководство
  37. Работа с YAML в Python: PyYAML.
  38. Библиотека schedule: планировщик задач
  39. Генераторы списков в Python
  40. Оформление кода на Python
  41. Вычисление натуральных логарифмов в NumPy
  42. Выбор редактора кода.
  43. Метод __irshift__ для Python
  44. Запуск асинхронной корутины
  45. Регулярные выражения: метод match
  46. Просмотр внешнего файла в Python

Marketello читают маркетологи из крутых компаний