Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Методы list в Python
  2. Декораторы в Python
  3. Конкатенация списков в Python
  4. Поиск подстроки в строке
  5. Оператор continue в Python
  6. Пропуск строк в файле с itertools
  7. Оператор space-invader
  8. Функция reduce() в Python
  9. Комментарии в Python
  10. Генераторы в Python
  11. Комментарии в Python.
  12. Работа с модулем cmath
  13. Константы в модуле cmath
  14. Работа со слайсами
  15. Подсчет частотности элементов в Python
  16. Множества и frozenset
  17. Установка и загрузка Instaloader
  18. Использование *args
  19. Создание функций высшего порядка
  20. Сортировка элементов с OrderedDict
  21. Создание новых списков в Python
  22. Декоратор total_ordering для класса Point
  23. Обмен данными с asyncio.Queue
  24. Повторение и перенос строки
  25. Многоточие в Python
  26. Подсчет элементов с помощью Counter
  27. Удаление специальных символов
  28. Настройка вывода NumPy
  29. Логические значения в Python
  30. Асинхронное выполнение задач в Python
  31. Удаление дубликатов из списка с помощью dict.fromkeys
  32. Расчет времени выполнения программы
  33. Работа с YAML в Python
  34. Установка и использование pyshorteners
  35. Синхронизация потоков с time.sleep()
  36. Генерация случайных чисел в Python
  37. Форматирование строк с % в Python
  38. Оператор break в Python
  39. Область видимости переменных в Python
  40. Функция zip() в Python
  41. Установка и использование pyshorteners
  42. Создание класса в Python
  43. Проверка типа объекта в Python
  44. globals и locals
  45. Моржовый оператор в Python 3.8
  46. Работа с словарями в Python
  47. Списки в Python
  48. Вставка переменных в шаблоны Flask

Marketello читают маркетологи из крутых компаний