Create a NER dictionary from a given text

Question

I have the following variable data[1][&#8216;entities&#8217;][0] = (48, 54, &#8216;Category 1&#8217;) stands for (start_offset, end_offset, entity). I want to read each word of data[0] and tag it according to data[1] entities. I am expecting to have as final output, Here, &#8216;O&#8217; stands for &#8216;Out…

Accepted Answer

def ner(data):    entities = {}    offsets = data[1]['entities']    for entity in offsets:        entities[data[0][int(entity[0]):int(entity[1])]] = re.findall('[0-9]+', entity[2])[0]        tags = []    for key, value in entities.items():        entity = key.split()        if len(entity) > 1:            bEntity = entity[1:-1]            tags.append((entity[0], 'S-'+value))            for item in bEntity:                tags.append((item, 'B-'+value))            tags.append((entity[-1], 'E-'+value))        else:            tags.append((entity[0], 'S-'+value))        tokens = nltk.word_tokenize(data[0])    OTokens = [(token, 'O') for token in tokens if token not in [token[0] for token in tags]]    for token in OTokens:        tags.append(token)        return tags

Advertisement

Answer