all the possible combinations between the values that have the same ID value

Question

I have an input pd dataframe with two columns, one is the sequence and the second is an ID (it is a number between 1-1000). I want to get all the possible combinations between the sequences that have the same ID. Input: desired output I have been reading into itertools but this only gives me all possible comb…

Accepted Answer

Use custom lambda function with itertools.combinations per groups in GroupBy.apply:from  itertools import combinationsdf1 = df.groupby('ID')['sequence'].apply(lambda x: pd.DataFrame(combinations(x, 2),                                                                columns=['a','b']))print (df1)                     a                 bID                                      1  0   CASSSTGVLLYEQCF   CASSSTGVLLYEQYF2  0   CAFNAGGTSHGKLTF   CAFNAGGTSYGKLTF   1   CAFNAGGTSHGKLTF   CAINAGGTSYGKLTF   2   CAFNAGGTSYGKLTF   CAINAGGTSYGKLTF3  0  CANSPSPVAGTDTQYF  CASSPSPVAGTDTQYFdf1 = df1.droplevel(1).reset_index()print (df1)   ID                 a                 b0   1   CASSSTGVLLYEQCF   CASSSTGVLLYEQYF1   2   CAFNAGGTSHGKLTF   CAFNAGGTSYGKLTF2   2   CAFNAGGTSHGKLTF   CAINAGGTSYGKLTF3   2   CAFNAGGTSYGKLTF   CAINAGGTSYGKLTF4   3  CANSPSPVAGTDTQYF  CASSPSPVAGTDTQYF

Advertisement

Answer