Nos últimos anos, ocorreu um acréscimo substancial de notícias, documentários e trabalhos científicos sobre a temática “Saúde Mental”. No mesmo sentido, há uma exponencialização de dados na web sobre os mais diversificados contextos, formando o que alguns pesquisadores denominaram Big Data. Nesse contexto, um dos objetivos do projeto Psiacademic Analytics é fazer a coleta de dados referentes à “Saúde Mental” em repositórios de teses e dissertações de instituições de ensino superior no Brasil. Neste trabalho, especificamente, será apresentado uma parte desse processo, que é a extração de dados e uma análise preliminar desses dados para torná-los mais adequados ao processo de consulta que será realizado em uma etapa posterior.