Pandas: Remove rows in a group if a particular value is also in a group

Question

I'm trying to use groupby and agg() function for this data processing step: Input: I plan to aggregate the data by ID. The requirement is if apples and oranges show up for the same ID, keep 'Apples'; for other combinations, keep the first observation for each ID. So wanted output: I could pivot the table and use np.where; however, in

Accepted Answer

Use:#sample dataprint (df)   ID         Fruit0   1        Apples1   1       Oranges2   2  Strawberries3   3   Blueberries4   4   Blueberries5   4        Apples6   5   Blueberries7   5       Oranges8   5        ApplesYou can aggregate set and GroupBy.first:L = ['Apples','Oranges']df1 = df.groupby('ID', sort=False)['Fruit'].agg([set, 'first']).reset_index()print (df1)   ID                             set         first0   1               {Oranges, Apples}        Apples1   2                  {Strawberries}  Strawberries2   3                   {Blueberries}   Blueberries3   4           {Blueberries, Apples}   Blueberries4   5  {Oranges, Blueberries, Apples}   BlueberriesAnd then test if all categories from list L exist in column set by Series.ge also possible another categories like ID=5 &#8211; then is assigned Apple else values from column first:df1['Fruit'] = np.where(df1.pop('set').ge(set(L)), 'Apple', df1.pop('first'))print (df1)   ID         Fruit0   1         Apple1   2  Strawberries2   3   Blueberries3   4   Blueberries4   5         AppleOr if need test if exist only unique values from list converted to sets use Series.eq:L = ['Apples','Oranges']df1 = df.groupby('ID', sort=False)['Fruit'].agg([set, 'first']).reset_index()print (df1)   ID                             set         first0   1               {Oranges, Apples}        Apples1   2                  {Strawberries}  Strawberries2   3                   {Blueberries}   Blueberries3   4           {Blueberries, Apples}   Blueberries4   5  {Oranges, Blueberries, Apples}   Blueberriesdf1['Fruit'] = np.where(df1.pop('set').eq(set(L)), 'Apple', df1.pop('first'))print (df1)   ID         Fruit0   1         Apple1   2  Strawberries2   3   Blueberries3   4   Blueberries4   5   Blueberries

Advertisement

Answer