I have a data type problem in the text classification problem

Question

I want to build deep learning classifiers for Kickstarter campaign prediction. I have a problem with the part of the model but I can not solve this. My code: In this point, I am getting ValueError: Failed to find data adapter that can handle input: <class &#8216;scipy.sparse.csr.csr_matrix&#8217;>, (&lt…

Accepted Answer

you need to add an embedding layer at the top of your NN to kind of vectorize words. something like this:import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizerfrom keras.preprocessing.text import one_hotfrom keras.preprocessing.sequence import pad_sequencesfrom keras.models import Sequentialfrom keras import layersdf = pd.read_csv('../input/kickstarter-campaigns-dataset/kickstarter_data_full.csv')df_X = [] # for x classdf_y = [] # for labelsfor i in range(len(df)):    tmp = str(df['blurb'][i]) + " " + str(df['goal'][i]) + " " + str(df['pledged'][i]) + " " + str(df['country'][i]) + " " + str(df['currency'][i]) + " " + str(df['category'][i]) + " " + str(df['spotlight'][i])      df_X.append(tmp)    df_y.append(str(df['SuccessfulBool'][i]))vocab_size = 1000encoded_docs = [one_hot(d, vocab_size) for d in df_X]max_length = 20padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='post')X_train, X_test, y_train, y_test = train_test_split(padded_docs, np.array(df_y)[:, None].astype(int), test_size=0.25, random_state=1000)model = Sequential()model.add(layers.Embedding(vocab_size, 100, input_length=max_length))model.add(layers.Flatten())model.add(layers.Dense(10, activation='relu'))model.add(layers.Dense(1, activation='sigmoid'))model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])print(model.summary())model.fit(X_train, y_train,           epochs=50,           verbose=1,          validation_data=(X_test, y_test),          batch_size=10)

Advertisement

Answer