How to drop column according to NAN percentage for dataframe?

Question

For certain columns of df, if 80% of the column is NAN. What's the simplest code to drop such columns? Answer You can use isnull with mean for threshold and then remove columns by boolean indexing with loc (because remove columns), also need invert condition - so <.8 means remove all columns >=0.8: Sample: If want remove columns by minimal

Accepted Answer

You can use isnull with mean for threshold and then remove columns by boolean indexing with loc (because remove columns), also need invert condition &#8211; so <.8 means remove all columns >=0.8:df = df.loc[:, df.isnull().mean() < .8]Sample:np.random.seed(100)df = pd.DataFrame(np.random.random((100,5)), columns=list('ABCDE'))df.loc[:80, 'A'] = np.nandf.loc[:5, 'C'] = np.nandf.loc[20:, 'D'] = np.nanprint (df.isnull().mean())A    0.81B    0.00C    0.06D    0.80E    0.00dtype: float64df = df.loc[:, df.isnull().mean() < .8]print (df.head())         B   C         E0  0.278369 NaN  0.0047191  0.670749 NaN  0.5750932  0.209202 NaN  0.2196973  0.811683 NaN  0.2740744  0.940030 NaN  0.175410If want remove columns by minimal values dropna working nice with parameter thresh and axis=1 for remove columns:np.random.seed(1997)df = pd.DataFrame(np.random.choice([np.nan,1], p=(0.8,0.2),size=(10,10)))print (df)     0   1    2    3    4    5    6    7   8    90  NaN NaN  NaN  1.0  1.0  NaN  NaN  NaN NaN  NaN1  1.0 NaN  1.0  NaN  NaN  NaN  NaN  NaN NaN  NaN2  NaN NaN  NaN  NaN  NaN  1.0  1.0  NaN NaN  NaN3  NaN NaN  NaN  NaN  1.0  NaN  NaN  NaN NaN  NaN4  NaN NaN  NaN  NaN  NaN  1.0  NaN  NaN NaN  1.05  NaN NaN  NaN  1.0  1.0  NaN  NaN  1.0 NaN  1.06  NaN NaN  NaN  NaN  NaN  NaN  NaN  NaN NaN  NaN7  NaN NaN  NaN  NaN  NaN  NaN  NaN  NaN NaN  NaN8  NaN NaN  NaN  NaN  NaN  NaN  NaN  1.0 NaN  NaN9  1.0 NaN  NaN  NaN  1.0  NaN  NaN  1.0 NaN  NaNdf1 = df.dropna(thresh=2, axis=1)print (df1)     0    3    4    5    7    90  NaN  1.0  1.0  NaN  NaN  NaN1  1.0  NaN  NaN  NaN  NaN  NaN2  NaN  NaN  NaN  1.0  NaN  NaN3  NaN  NaN  1.0  NaN  NaN  NaN4  NaN  NaN  NaN  1.0  NaN  1.05  NaN  1.0  1.0  NaN  1.0  1.06  NaN  NaN  NaN  NaN  NaN  NaN7  NaN  NaN  NaN  NaN  NaN  NaN8  NaN  NaN  NaN  NaN  1.0  NaN9  1.0  NaN  1.0  NaN  1.0  NaNEDIT: For non-Boolean dataTotal number of NaN entries in a column must be less than 80% of total entries: df = df.loc[:, df.isnull().sum() < 0.8*df.shape[0]]

Advertisement

Answer