Column with column names for nulls in row

Question

I want to add new column &#8220;Null_Values&#8221; in PySpark dataframe as below Answer or

Accepted Answer

df = df.withColumn(    "NUll_Values",    F.concat_ws(",", *[F.when(F.col(c).isNull(), c) for c in df.columns]))df.show(truncate=False)#  +---+-----+-------+-------+---------------------+#  |ID |Maths|Science|English|NUll_Values          |#  +---+-----+-------+-------+---------------------+#  |11 |80   |null   |89     |Science              |#  |12 |null |null   |89     |Maths,Science        |#  |13 |90   |95     |85     |                     |#  |14 |null |null   |null   |Maths,Science,English|#  +---+-----+-------+-------+---------------------+ordf = df.withColumn(    "NUll_Values",    F.concat_ws(",", *[F.when(F.col(c).isNull(), c) for c in df.columns])).replace("", None, subset=["NUll_Values"])df.show(truncate=False)#  +---+-----+-------+-------+---------------------+#  |ID |Maths|Science|English|NUll_Values          |#  +---+-----+-------+-------+---------------------+#  |11 |80   |null   |89     |Science              |#  |12 |null |null   |89     |Maths,Science        |#  |13 |90   |95     |85     |null                 |#  |14 |null |null   |null   |Maths,Science,English|#  +---+-----+-------+-------+---------------------+

Advertisement

Answer