Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Создание спинбокса в tkinter
  2. Использование *args
  3. Иерархия классов в Python
  4. Измерение времени выполнения кода
  5. Flask: создание веб-приложений
  6. Многострочные комментарии в Python
  7. Измерение времени выполнения
  8. capitalize() — изменение регистра первого символа строки
  9. Метод split() для разделения строк
  10. Итераторы с потерямиZIP
  11. Срезы в Python
  12. Работа с NumPy
  13. Наследование в программировании
  14. Работа с набором данных CIFAR10 в PyTorch
  15. Генерация UUID в Python
  16. Проверка на истинность объектов в Python
  17. Извлечение аудио из видео
  18. Функция print() — вывод информации
  19. Разделение строки на пары ключ-значение.
  20. Округление дробей в Python
  21. Логирование с Logzero
  22. Методы list в Python
  23. Реверс строки и списка в Python.
  24. Пространство имен в Python
  25. Конкатенация строк в Python
  26. Модуль subprocess: запуск внешних команд
  27. Проверка класса объекта
  28. Инверсия списка/строки в Python
  29. Разделение строки с помощью re.split()
  30. OrderedDict — упорядоченный словарь
  31. Разделение строк в Python
  32. Counter() — подсчет элементов
  33. Создание лямбда-функций
  34. Безопасные SQL-запросы в Python 3.11
  35. Сортировка в Python
  36. Defaultdict в Python
  37. Работа с парами ключ-значение
  38. Копирование объектов в Python
  39. Отступы в Python
  40. Создание функций с произвольным количеством аргументов
  41. Генераторы в Python
  42. Удаление специальных символов с помощью re.sub
  43. Генераторные функции в Python
  44. Лямбда-функции в defaultdict
  45. Группировка элементов в словарь
  46. Solidity для DeFi Ethereum
  47. Создание списка через цикл
  48. Расчет времени выполнения
  49. Именование переменных в Python

Marketello читают маркетологи из крутых компаний