Check for value of an dataframe exists in another and set values in a specific way accounting for duplicates

Question

I have two dataframes: In df1, i got an order of id&#8217;s assigned to people, each person can have at most 2 id&#8217;s: df1: In df2, i got a list of payments and id&#8217;s for these people but not arranged: df2: What i&#8217;m looking for is a way to create a df3 that organizes payments in the specific or…

Accepted Answer

UPDATED : Dataframe.replacedf3 = df1.assign(payment=df1.replace(df2.groupby('id')['amount'].sum())                            .where(df1.isin(df2['id'].tolist()))                            .sum(axis=1))  %%timeitdf3 = df1.assign(payment=df1.replace(df2.groupby('id')['amount'].sum())                            .where(df1.isin(df2['id'].tolist())).sum(axis=1))  4.37 ms ± 500 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)%%timeitdf3 = df1.assign(payment=df1.reset_index().melt('index')                            .assign(value=lambda x: x.value.map(df2.groupby('id')['amount']                                                                   .sum()))                            .groupby('index')['value'].sum())8.83 ms ± 1.95 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)I like to use DataFrame.melt because we don&#8217;t depend on the number of columns in df1df3 = df1.assign(payment=df1.reset_index().melt('index')                            .assign(value=lambda x: x.value.map(df2.groupby('id')                                                                   .amount                                                                   .sum()))                            .groupby('index')['value'].sum())print(df3)    id1   id2  payment0  2040     0     20.01  2041  2050      0.02  2042     0      0.03  2043     0      5.04  2044  2051      0.05  2045  2052     15.0And df4:df4 = df2.merge(df1.melt(),                 left_on='id',                 right_on='value',                 indicator=True,                 how='left')    .loc[lambda x: x._merge=='left_only', df2.columns]print(df4)     id  amount2  2053       5

Check for value of an dataframe exists in another and set values in a specific way accounting for duplicates

Advertisement

Answer

UPDATED : `Dataframe.replace`