Delete duplicates if multiple fields follow conditions?

Question

I had a simple Excel task to do today that I figured i'd use some Python to clean up. This led me to pandas and numpy.This is what i'd like to know if possible: I have these columns and about 5k rows: First Name | Last Name | Email | Address | City I want to remove duplicates that fall

Accepted Answer

First of all, you should provide example data, so we can easily test code on your data.I think you have to do 2 things:sort your data (sort_values)delete the duplicated lines (drop_duplicates)you have to check if you use None values or emtpy string, because they befave differently on sorting, maybe you have to change keep to &#8220;first&#8221;.import pandas as pddef run():    df = pd.DataFrame({        "First Name": ["John", "", "Jane", ""],        "Last Name": ["Last1", "Last2", "Last3", "Last3"],        "Email": ["", "Email2", None, "Email4"],        "Address": ["Address1", "Address1", "Address2", "Address2"],        "City": ["City1", "City1", "City2", "City2"]    })    print(df)    print()    df.sort_values(by=["Last Name", "Address", "City", "Email"], inplace=True)    df.drop_duplicates(subset=["Last Name", "Address", "City"], keep="last", inplace=True)    print(df)if __name__ == '__main__':    run()output:      First Name Last Name                Email     Address     City0            Bob    Arnold                       123 Street   Boston1            Ken    Arnold                       123 Street   Boston2  Bobs Business            Bb@bobsbusiness.com  123 Street   Boston3         Daniel     Amigo      amigo@amigo.com    5 Street  Concord4          Wendy     Amigo                         5 Street  Concord5           Kyle     Zecke          k@zecke.com    5 Street   Denver      First Name Last Name                Email     Address     City2  Bobs Business            Bb@bobsbusiness.com  123 Street   Boston3         Daniel     Amigo      amigo@amigo.com    5 Street  Concord1            Ken    Arnold                       123 Street   Boston5           Kyle     Zecke          k@zecke.com    5 Street   Denver

Advertisement

Answer