Курс Python → Удаление дубликатов в pandas

Для удаления дублирующихся данных в Python можно воспользоваться методом drop_duplicates() из библиотеки pandas. Этот метод позволяет удалить строки с дублирующимися значениями в указанных столбцах. Например, если у вас есть DataFrame df и вы хотите удалить дубликаты в столбце ‘name’, то код будет выглядеть следующим образом:


df.drop_duplicates(subset=['name'], keep='first', inplace=True)

В данном примере мы указали столбец ‘name’ как ключ для поиска дубликатов. Аргумент keep=’first’ означает, что будет оставлен первый встреченный дубликат, а остальные будут удалены. Если вы хотите сохранить последний дубликат, замените ‘first’ на ‘last’.

Если вы хотите удалить дубликаты по всем столбцам, то просто укажите аргумент subset=None:


df.drop_duplicates(subset=None, keep='first', inplace=True)

После выполнения этой операции DataFrame будет содержать только уникальные строки. Удаление дубликатов помогает упростить анализ данных и избежать искажений в результатах. Помните, что перед удалением дубликатов всегда стоит проанализировать данные и убедиться, что удаление не повредит целостности информации.

Твои коллеги будут рады, поделись в

Автор урока

Дмитрий Комаровский
Дмитрий Комаровский

Автоматизация процессов
в КраснодарБанки.ру

Другие уроки курса "Python"

  1. Вызов функций по строке в Python.
  2. Генераторы в Python
  3. Инверсия списка и строки
  4. Обновление ключей в Python
  5. Удаление и повторная вставка ключа в OrderedDict
  6. Срезы в Numpy
  7. Управление экспортом элементов
  8. Поиск индекса элемента в списке
  9. Работа с часовыми поясами в Python.
  10. Объединение объектов в Python
  11. Замена символов в строке
  12. Наследование в программировании
  13. Библиотека Rich: форматирование текста
  14. Создание объекта timedelta
  15. Конкатенация строк с join() в Python
  16. Просмотр внешних файлов в %pycat
  17. Управление контекстом выполнения кода
  18. Тестирование модели в PyTorch
  19. Удаление знаков препинания в Python
  20. Удаление ссылок в Python
  21. Переопределение метода __floordiv__
  22. Переименование файлов в Python
  23. Подсчет частотности элементов в Python
  24. Передача неизвестных аргументов в Python.
  25. Поиск уникальных и повторяющихся элементов
  26. Работа с асинхронными задачами в Python
  27. Отделение звука от видео
  28. Работа со словарями
  29. Декораторы в Python
  30. Нахождение хеша для бесконечности и NaN в Python
  31. Приближение чисел в Python
  32. Оператор in для Python
  33. Безопасные SQL-запросы в Python 3.11
  34. Возврат нескольких значений
  35. Функции min(), max(), sum()
  36. Работа с itertools
  37. Отправка HTTP-запросов с User-Agent
  38. Измерение времени выполнения в Python
  39. Запрос пароля с помощью getpass
  40. Поиск уникальных элементов строкой в Python
  41. Проблема с изменяемыми аргументами
  42. Преобразование числа в восьмеричную строку
  43. Перехват исключений в Python
  44. Функция rsplit() в Python
  45. Методы работы со строками в Python
  46. Измерение времени выполнения кода

Marketello читают маркетологи из крутых компаний