Pandas rolling sum with groupby and conditions

Question

I have a dataframe with a timeseries of sales of different items with customer analytics. For each item and a given day I want to compute: a share of my best customer in last 2 days total sales a share of my top customers (from a list) in last 2 days total sales I&#8217;ve tried solutions provided here: for r…

Accepted Answer

Use:#custom rolling with shift first dayf = lambda x: x.rolling(2, min_periods=1).sum().shift()#aggregate sumdf1 = df.groupby(['item','date'], as_index=False)['sales'].sum()#apply custom rolling per groupsdf1['sales_last_2_days'] = df1.groupby('item')['sales'].apply(f).reset_index(drop=True, level=0)#filter customer a and aggregate suma = df[df['customer'].eq('a')].groupby(['item','date'])['sales'].sum().rename('a_share')#add new column to originaldf1 = df1.join(a, on=['item','date'])#applt custom rolling per groups and dividedf1['a_share'] = df1.groupby('item')['a_share'].apply(f).reset_index(drop=True, level=0) / df1['sales_last_2_days']#verys similar like before, only test membership by isintop_cust = ['a', 'c'] a = df[df['customer'].isin(top_cust)].groupby(['item','date'])['sales'].sum().rename('top_share')df1 = df1.join(a, on=['item','date'])df1['top_share'] = df1.groupby('item')['top_share'].apply(f).reset_index(drop=True, level=0) / df1['sales_last_2_days']print (df1)   item       date  sales  sales_last_2_days   a_share  top_share0     1 2018-01-01     10                NaN       NaN        NaN1     1 2018-01-02     12               10.0  0.200000   0.2000002     1 2018-01-03      7               22.0  0.090909   0.3181823     2 2018-01-04     10                NaN       NaN        NaN4     2 2018-01-05     14               10.0  0.700000   1.0000005     2 2018-01-06     12               24.0  0.416667   0.5416676     2 2018-01-07     15               26.0  0.307692   0.500000If want use rolling with days, it is more complicated:df1 = df.groupby(['item','date'], as_index=False)['sales'].sum()sales1 = (df1.set_index('date')             .groupby('item')['sales']             .rolling('2D', min_periods=1)             .sum()             .groupby('item')             .shift()             .rename('sales_last_2_days')         )df1 = df1.join(sales1, on=['item','date'])df2 = df[df['customer'].eq('a')].groupby(['item','date'], as_index=False)['sales'].sum()a = (df2.set_index('date')        .groupby('item')[['sales']]        .apply(lambda x: x.asfreq('D'))        .reset_index(level=0)        .groupby('item')['sales']        .rolling('2D', min_periods=1)        .sum()        .groupby('item')        .shift()        .rename('a_share')         )print (a)df1 = df1.join(a, on=['item','date'])df1['a_share'] /= df1['sales_last_2_days']top_cust = ['a', 'c'] df3 = df[df['customer'].isin(top_cust)].groupby(['item','date'], as_index=False)['sales'].sum()b = (df3.set_index('date')        .groupby('item')[['sales']]        .apply(lambda x: x.asfreq('D'))        .reset_index(level=0)        .groupby('item')['sales']        .rolling('2D', min_periods=1)        .sum()        .groupby('item')        .shift()        .rename('top_share')         )df1 = df1.join(b, on=['item','date'])df1['top_share'] /= df1['sales_last_2_days']print (df1)   item       date  sales  sales_last_2_days   a_share  top_share0     1 2018-01-01     10                NaN       NaN        NaN1     1 2018-01-02     12               10.0  0.200000   0.2000002     1 2018-01-03      7               22.0  0.090909   0.3181823     2 2018-01-04     10                NaN       NaN        NaN4     2 2018-01-05     14               10.0  0.700000   1.0000005     2 2018-01-06     12               24.0  0.416667   0.5416676     2 2018-01-07     15               26.0  0.307692   0.500000

item	date	customer	sales
1	2018-01-01	a	2
1	2018-01-01	b	2
1	2018-01-01	b	6
1	2018-01-02	b	4
1	2018-01-02	b	3
1	2018-01-02	c	5
1	2018-01-03	c	1
1	2018-01-03	c	4
1	2018-01-03	a	2
2	2018-01-04	a	5
2	2018-01-04	a	2
2	2018-01-04	c	3
2	2018-01-05	b	7
2	2018-01-05	a	3
2	2018-01-05	b	4
2	2018-01-06	b	2
2	2018-01-06	c	5
2	2018-01-06	a	5
2	2018-01-07	c	3
2	2018-01-07	a	6
2	2018-01-07	b	6

item	date	sales_at_day	sales_last_2_days	a_share	top_share
1	2018-01-01	10	NaN	NaN	NaN
1	2018-01-02	12	10	0.20	0.20
1	2018-01-03	7	22	0.09	0.09
2	2018-01-04	10	NaN	NaN	NaN
2	2018-01-05	14	10	0.70	1.00
2	2018-01-06	12	24	0.29	0.42
2	2018-01-07	15	26	0.31	0.50

Advertisement

Answer