Em artigos biomédicos, uma técnica de reconhecimento de entidade (NER) nomeada que identifica nomes de entidades de textos é um elemento importante para extrair conhecimento biológico de artigos. Depois que o NER é aplicado a artigos, o próximo passo é normalizar os nomes identificados em conceitos padrão (ou seja, os nomes de doenças são mapeados para os termos da doença do Título Médico da National Library of Medicine). Em artigos biomédicos, muitos métodos de normalização de entidades dependem de dicionários específicos de domínio para resolver sinônimos e abreviaturas. No entanto, os dicionários não são abrangentes, exceto para algumas entidades como os genes. Nos últimos anos, os artigos biomédicos se acumularam rapidamente, e os algoritmos baseados em redes neurais que incorporam uma grande quantidade de dados não marcados mostraram sucesso considerável em diversos problemas de processamento de linguagem natural.
Neste estudo, propomos uma abordagem para a normalização de entidades biológicas, como nomes de doenças e nomes de plantas, usando embutidos de palavras para representar espaços semânticos. Para doenças, os dados de treinamento do corpus da doença do National Center for Biotechnology Information (NCBI) e dados não-rotulados dos resumos do PubMed foram usados para construir representações de palavras. Para as plantas, um corpus de treinamento que construímos manualmente e os resumos de PubMed não marcados foram usados para representar vetores de palavras. Mostramos que a abordagem proposta melhorou do que o uso de apenas o corpus de treinamento ou apenas os dados não marcados e mostrou que a precisão da normalização foi melhorada usando nosso modelo mesmo quando os dicionários não eram abrangentes. Obtivemos pontuações F de 0.808 e 0.690 para normalizar o corpus de doença de NCBI e corpus de planta construído manualmente, respectivamente. Nós avaliamos ainda mais nossa abordagem usando um conjunto de dados na tarefa de normalização da doença do desafio BioCreative V. Quando apenas o corpus da doença foi usado como um dicionário, nossa abordagem superou significativamente o melhor sistema da tarefa.
A abordagem proposta mostra um desempenho robusto para a normalização de entidades biológicas. O corpus de plantas construído manualmente eo modelo proposto estão disponíveis em http://gcancer.org/plant e http://gcancer.org/normalization, respectivamente.