O estudo de eventos adversos de drogas (ADEs) é um tópico posicionado na literatura médica. Nos últimos anos, um número crescente de artigos científicos e posts de mídia social relacionados à saúde foi gerado e compartilhado diariamente, embora com uso muito limitado para o estudo do ADE e pouco conhecido sobre o conteúdo em relação aos ADEs.
O objetivo deste estudo foi desenvolver uma grande estratégia de análise de dados que minie o conteúdo de artigos científicos e redes sociais baseadas na Web relacionadas à saúde para detectar e identificar ADEs.
Analisamos as seguintes duas fontes de dados: (1) artigos biomédicos e (2) postagens de blogs de redes sociais relacionadas à saúde. Desenvolvemos uma solução de mineração de texto inteligente e escalável em grandes infraestruturas de dados, composta por Apache Spark, processamento de linguagem natural e aprendizagem de máquinas. Isso foi combinado com um banco de dados distribuído Elasticsearch No-SQL para explorar e visualizar ADEs.
A precisão, precisão, recall e área sob características operacionais do receptor do sistema foram 92,7%, 93,6%, 93,0% e 0,905, respectivamente, e apresentaram melhores resultados em comparação com abordagens tradicionais na literatura. Este trabalho não só detectou e classificou as frases ADE de literatura biomedica de dados importantes, mas também as interacções ADE cientificamente visualizadas.
No nosso melhor conhecimento, este trabalho é o primeiro a investigar uma grande estratégia de aprendizagem de máquinas de dados para a descoberta do ADE em conjuntos de dados maciços baixados da PubMed Central e das mídias sociais. Esta contribuição ilustra as possíveis capacidades em análise de texto biomédico de dados grandes usando métodos computacionais avançados com atualização em tempo real a partir de novos dados publicados diariamente.