Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Правила именования переменных
  2. Переворот списка в Python
  3. Использование *args
  4. Функция zip() в Python
  5. Использование двоеточия в Python
  6. Абстракции словарей и множеств в Python
  7. Игра «Камень, ножницы, бумага» — Python
  8. Concrete Paths в Python
  9. Модуль antigravity: генерация координат
  10. Сортировка списка по индексам
  11. Преобразование кортежа в словарь.
  12. Атрибуты объекта в Python
  13. Безопасные SQL-запросы в Python 3.11
  14. Подсказки типов в Python
  15. Установка и использование emoji
  16. Подсчет элементов в Python
  17. Блок else в циклах.
  18. Метод clear для коллекций
  19. Рекурсия для обращения строки
  20. Работа с NumPy массивами
  21. Символ подчеркивания в Python
  22. Разделение строки в Python
  23. Работа с timedelta в Python
  24. Создание панели меню Tkinter
  25. Функциональное программирование в Python
  26. Python reversed() vs срез[::-1]
  27. Генератор надежных паролей
  28. Протокол управления контекстом
  29. Конвертация коллекций в Python
  30. Фильтрация последовательности
  31. Повторение и перенос строки
  32. Метод splitlines() для разделения строк
  33. Вычисление разности множеств в Python
  34. Безопасный доступ к значениям словаря
  35. Оператор «not» в Python
  36. Функция product() в Python
  37. Введение в PyTorch
  38. Многопроцессорное программирование в Python
  39. Работа с функцией next() в Python
  40. Многострочные строки в Python
  41. Функция enumerate в Python
  42. Транспонирование 2D-массива с помощью zip
  43. Объединение, распаковка и деструктуризация
  44. Обработка исключений в Python
  45. Нахождение максимального значения и его индекса в списке
  46. Избегание изменяемых аргументов

Marketello читают маркетологи из крутых компаний