How to count letter based similarity on pandas dataframe

Question

Here's my first dataframe df1 Here's my second dataframe df2 Similarity Matrix, columns is Id from df1, rows is Id from df2 Note: 0 value in (1,1), (2,1) and (3,2) because no letter similar 0.25 value in (3,1) is because of only 1 letter from raUw avaliable in 4 letter `dnag' (1/4 equals 0.25) 0.5 is counted because of 2

Accepted Answer

IIUC, one option is to use set.intersection in a nested list comprehension:out = pd.DataFrame([[len(set(x.lower()) & set(y.lower())) / len(x) for y in df1['Text'].tolist()] for x in df2['Text'].tolist()])Output:     0    1         20  0.0  0.0  0.6666671  0.5  0.0  0.250000

Advertisement

Answer