Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Список и кортеж в Python
  2. Установка и использование модуля «howdoi»
  3. Распаковка элементов последовательности
  4. Объединение словарей в Python
  5. Удаление URL-адресов в Python
  6. Поиск подстроки в строке
  7. Удаление элементов из списка в Python
  8. Инициализация структур данных
  9. Метод rmatmul для пользовательских матриц
  10. Преобразование чисел в восьмеричную строку
  11. Удаление файлов с shutil.os.remove()
  12. Поиск уникальных элементов строкой в Python
  13. Управление контекстом выполнения
  14. Эффективная конкатенация строк с использованием join()
  15. Лямбда-функции в Python
  16. Метод eq для сравнения объектов
  17. Оператор Walrus в Python 3.8
  18. Работа с итераторами в Python
  19. Управление браузером с Selenium
  20. Модуль pprint
  21. Многострочные комментарии в Python
  22. Преобразование типов данных в set comprehension
  23. Пересечение списков с использованием множеств
  24. Нахождение пересечения множеств
  25. Оптимизация интернирования строк
  26. Декораторы в Python
  27. Взаимодействие с sys
  28. Лямбда-функции в Python
  29. Объединение словарей в Python
  30. Преобразование списка в словарь через генератор
  31. Управление ресурсами с контекстными менеджерами
  32. Распаковка значений в Python
  33. Вычисление разности множеств в Python
  34. Аннотации типов в Python
  35. Открытие и запись файлов
  36. Логирование с Loguru
  37. Переопределение метода
  38. Асинхронное программирование с asyncio
  39. Округление в Python
  40. Python groupby() из itertools: работа с повторяющимися элементами
  41. Метод join для объединения строк
  42. Определение основы слова с showballstemmer
  43. Сравнение def и lambda-функций
  44. Метод ior для битовых операций
  45. Функция enumerate() в Python

Marketello читают маркетологи из крутых компаний