As ciências biomédicas experimentaram uma explosão de dados que promete sobrecarregar muitos praticantes atuais. Sem acesso fácil aos recursos de treinamento em ciências de dados, os pesquisadores biomédicos podem encontrar-se incapazes de contornar seus próprios conjuntos de dados. Em 2014, para enfrentar os desafios colocados como uma investida de dados, os Institutos Nacionais de Saúde (NIH) lançaram a iniciativa Big Data to Knowledge (BD2K). Para o efeito, o Centro de Coordenação de Treinamento BD2K (TCC; bigdatau.org) foi financiado para facilitar a aprendizagem em pessoa e na internet e abrir os conceitos de ciência de dados para o público mais amplo possível. Aqui, descrevemos as atividades do BD2K TCC e seu foco na construção do Índice de descoberta de recursos educacionais (ERuDIte), que identifica, coleta, descreve e organiza materiais de ciência de dados on-line de concorrentes BD2K, cursos abertos on-line e vídeos de palestras científicas e tutoriais. ERUDIte agora indexa mais de 9.500 recursos. Dada a riqueza dos materiais de treinamento on-line e a evolução constante da ciência dos dados biomédicos, são necessários métodos computacionais que aplicam a recuperação da informação, processamento de linguagem natural e técnicas de aprendizado de máquinas – com efeito, utilizando a ciência dos dados para informar o treinamento na ciência dos dados. Ao fazê-lo, o TCC busca democratizar novas idéias e descobertas trazidas através de treinamento de ciência de dados em larga escala.