How to group data from a list of namedtuples

Question

In python, I have the following data in a list of namedtuple in memory: I want to group the data by : cluster cluster and host cluster and host and database cluster and host and database and diskgroup I won't need the disk details. In each group I want to : sum the values of read_bytes_per_sec and write_bytes_per_sec compute the

Accepted Answer

These are pandas data frames, if you need python dictionary version you&#8217;ll get it by adding .to_dict() to per_diskgroup, per_database,  per_host, per_cluster. eg: per_database.to_dict()In [2]: l = ["cluster1,host1,database1,dg_data1,disk1,650000,500000,1.2,0.9",   ...: "cluster1,host1,database1,dg_data1,disk2,630000,480000,1.1,1",   ...: "cluster1,host1,database1,dg_data2,disk1,730000,250000,0.4,0.7",   ...: "cluster1,host1,database2,dg_data1,disk1,320000,400000,1,0.4",   ...: "cluster1,host1,database2,dg_data2,disk1,550000,300000,0.8,0.8",   ...: "cluster1,host2,database3,dg_data1,disk1,420000,310000,1.2,0.7",   ...: "cluster1,host2,database3,dg_data2,disk1,880000,280000,0.4,0.6",   ...: "cluster1,host2,database4,dg_data5,disk1,440000,600000,1,0.5",   ...: "cluster1,host2,database4,dg_data2,disk1,490000,450000,1,0.4",   ...: "cluster1,host2,database4,dg_data2,disk2,410000,450000,1,0.4"]   ...: l = [i.split(",") for i in l]   ...: df = pd.DataFrame(l, columns="cluster host database diskgroup disk read_bytes_per_sec write_bytes_per_sec avg_ms_per_read avg_ms_per_write   ...: ".split())   ...: cols = ['read_bytes_per_sec', 'write_bytes_per_sec', 'avg_ms_per_read','avg_ms_per_write']   ...: df[cols] = df[cols].astype(float)   ...: dfOut[2]:     cluster   host   database diskgroup   disk  read_bytes_per_sec  write_bytes_per_sec  avg_ms_per_read  avg_ms_per_write0  cluster1  host1  database1  dg_data1  disk1            650000.0             500000.0              1.2               0.91  cluster1  host1  database1  dg_data1  disk2            630000.0             480000.0              1.1               1.02  cluster1  host1  database1  dg_data2  disk1            730000.0             250000.0              0.4               0.73  cluster1  host1  database2  dg_data1  disk1            320000.0             400000.0              1.0               0.44  cluster1  host1  database2  dg_data2  disk1            550000.0             300000.0              0.8               0.85  cluster1  host2  database3  dg_data1  disk1            420000.0             310000.0              1.2               0.76  cluster1  host2  database3  dg_data2  disk1            880000.0             280000.0              0.4               0.67  cluster1  host2  database4  dg_data5  disk1            440000.0             600000.0              1.0               0.58  cluster1  host2  database4  dg_data2  disk1            490000.0             450000.0              1.0               0.49  cluster1  host2  database4  dg_data2  disk2            410000.0             450000.0              1.0               0.4In [3]: aggregation = {"read_bytes_per_sec" : sum, "avg_ms_per_read" : np.mean, "avg_ms_per_write" : np.mean}   ...: per_diskgroup = df.groupby(['disk', 'cluster', 'host', 'database', 'diskgroup']).agg(aggregation)   ...: per_database = df.groupby (['cluster', 'host', 'database']).agg(aggregation)   ...: per_host = df.groupby     (['host', 'cluster']).agg(aggregation)   ...: per_cluster = df.groupby  (['cluster']).agg(aggregation)In [4]: per_diskgroupOut[4]:                                           read_bytes_per_sec  avg_ms_per_read  avg_ms_per_writedisk  cluster  host  database  diskgroup                                                       disk1 cluster1 host1 database1 dg_data1             650000.0              1.2               0.9                               dg_data2             730000.0              0.4               0.7                     database2 dg_data1             320000.0              1.0               0.4                               dg_data2             550000.0              0.8               0.8               host2 database3 dg_data1             420000.0              1.2               0.7                               dg_data2             880000.0              0.4               0.6                     database4 dg_data2             490000.0              1.0               0.4                               dg_data5             440000.0              1.0               0.5disk2 cluster1 host1 database1 dg_data1             630000.0              1.1               1.0               host2 database4 dg_data2             410000.0              1.0               0.4In [5]: per_databaseOut[5]:                           read_bytes_per_sec  avg_ms_per_read  avg_ms_per_writecluster  host  database                                                        cluster1 host1 database1           2010000.0              0.9          0.866667               database2            870000.0              0.9          0.600000         host2 database3           1300000.0              0.8          0.650000               database4           1340000.0              1.0          0.433333In [6]: per_hostOut[6]:                 read_bytes_per_sec  avg_ms_per_read  avg_ms_per_writehost  cluster                                                        host1 cluster1           2880000.0             0.90              0.76host2 cluster1           2640000.0             0.92              0.52In [7]: per_clusterOut[7]:           read_bytes_per_sec  avg_ms_per_read  avg_ms_per_writecluster                                                        cluster1           5520000.0             0.91              0.64

Advertisement

Answer