Pandas: Find difference in rows with same index in any column

Question

Sample dataframe: If you see here, the rows with common index have atleast one difference amongst them. For ex: Rows with index 0, have difference in column_name. Rows with index 5, have difference in max_length. Rows with index 6, have differences in both data_type and default. Rows with index 8, have differ…

Accepted Answer

Here is solution similar like @Riccardo Bucco solution with Series.nunique and because always 2 values per groups output is converting to list only:f = lambda x:  {c: x[c].tolist() for c in x.columns if x[c].nunique(dropna=False) != 1}d = df.groupby('index').apply(f).to_dict()print (d)# {0: {'column_name': ['active', 'actv']},#  5: {'max_length': [256.0, 99.0]}, #  6: {'data_type': ['varchar', 'bigint'], 'default': [10.0, nan]}, #  8: {'data_type': ['varchar', 'integer']}}Solution with always 2 rows per groups index values:m = df.index.duplicated()m1 = df.fillna('miss')[m].ne(df.fillna('miss')[~m])s = (df.where(m1)       .stack()       .groupby(level=[0,1])       .agg(lambda x: list(x) if len(x) == 2 else [*x, np.nan]))print (s)index             0      column_name        [active, actv]5      max_length          [256.0, 99.0]6      data_type       [varchar, bigint]       default               [10.0, nan]8      data_type      [varchar, integer]dtype: objectd = {level: s.xs(level).to_dict() for level in s.index.levels[0]}print (d){0: {'column_name': ['active', 'actv']},  5: {'max_length': [256.0, 99.0]},  6: {'data_type': ['varchar', 'bigint'],      'default': [10.0, nan]}, 8: {'data_type': ['varchar', 'integer']}}

Advertisement

Answer