Pandas groupby datetime columns by periods

Question

I have the following dataframe: I would like to get for each row (e.g a,b,c,d &#8230;) the mean vale between specific hours. The hours are between 9-15, and I want to groupby period, for example to calculate the mean value between 09:00:00 to 11:00:00, between 11- 12, between 13-15 (or any period I decide to)…

Accepted Answer

If need some period, e.g. each 2 hours:df.columns = pd.to_datetime(df.columns,format="%H:%M:%S")df1 = df.resample('2H', axis=1).mean()print (df1)   1900-01-01 08:00:000             4.4285711             5.1428572             8.1428573             4.285714If need some custom periods is possible use cut:df.columns = pd.to_datetime(df.columns,format="%H:%M:%S")bins = ['5:00:00','9:00:00','11:00:00','12:00:00', '23:59:59']dates = pd.to_datetime(bins,format="%H:%M:%S")labels = [f'{i}-{j}' for i, j in zip(bins[:-1], bins[1:])] df.columns = pd.cut(df.columns, bins=dates, labels=labels, right=False)print (df)   9:00:00-11:00:00  9:00:00-11:00:00  9:00:00-11:00:00  9:00:00-11:00:00  0                 1                 2                 3                 4   1                 2                 6                 5                 4   2                 3                 5                 3                21   3                 1                 7                 8                 4      9:00:00-11:00:00  9:00:00-11:00:00  9:00:00-11:00:00  0                 7                 9                 5  1                 9                 8                 2  2                12                 6                 7  3                 3                 4                 3  And last use mean per columns, reason of NaNs columns is columns are categoricals:df2 = df.mean(level=0, axis=1)print (df2)   9:00:00-11:00:00  5:00:00-9:00:00  11:00:00-12:00:00  12:00:00-23:59:590          4.428571              NaN                NaN                NaN1          5.142857              NaN                NaN                NaN2          8.142857              NaN                NaN                NaN3          4.285714              NaN                NaN                NaNFor avoid NaNs columns convert columns names to strings:df3 = df.rename(columns=str).mean(level=0, axis=1)print (df3)   9:00:00-11:00:000          4.4285711          5.1428572          8.1428573          4.285714EDIT: Solution above with timedeltas, because format HH:MM:SS:df.columns = pd.to_timedelta(df.columns)print (df)   0 days 09:00:00  0 days 09:05:00  0 days 09:10:00  0 days 09:15:00  0                1                2                3                4   1                2                6                5                4   2                3                5                3               21   3                1                7                8                4      0 days 09:20:00  0 days 09:25:00  0 days 09:30:00  0                7                9                5  1                9                8                2  2               12                6                7  3                3                4                3 bins = ['9:00:00','11:00:00','12:00:00']dates = pd.to_timedelta(bins)labels = [f'{i}-{j}' for i, j in zip(bins[:-1], bins[1:])] df.columns = pd.cut(df.columns, bins=dates, labels=labels, right=False)print (df)   9:00:00-11:00:00  9:00:00-11:00:00  9:00:00-11:00:00  9:00:00-11:00:00  0                 1                 2                 3                 4   1                 2                 6                 5                 4   2                 3                 5                 3                21   3                 1                 7                 8                 4      9:00:00-11:00:00  9:00:00-11:00:00  9:00:00-11:00:00  0                 7                 9                 5  1                 9                 8                 2  2                12                 6                 7  3                 3                 4                 3 #missing values because not exist datetimes between 11:00:00-12:00:00df2 = df.mean(level=0, axis=1)print (df2)   9:00:00-11:00:00  11:00:00-12:00:000          4.428571                NaN1          5.142857                NaN2          8.142857                NaN3          4.285714                NaNdf3 = df.rename(columns=str).mean(level=0, axis=1)print (df3)   9:00:00-11:00:000          4.4285711          5.1428572          8.1428573          4.285714

Advertisement

Answer