Bases de dados agregadas

De CCSL
Ir para navegação Ir para pesquisar

Quem somos

A Healthbit é uma empresa de consultoria que visa melhorar a aplicação dos investimentos em saúde, seja na área de gestão ou ações de saúde diretas (campanha de diabetes, por exemplo). Utilizamos diferentes técnicas de análise de dados para guiar nossos clientes em relação a melhorias reais (e com métricas) na saúde geral das pessoas que trabalham assim como seus dependentes, promovendo assim uma maior qualidade nos serviços prestados a curto prazo e um ganho financeiro com prevenção de catástrofes no longo prazo

O projeto

Sistema para agregar grandes bases de dados de fontes diversas, principalmente redes sociais (com variáveis de texto abertas, provavelmente devemos usar funções que sejam otimizadas para lidar com strings, o que se registra é conteúdo escrito pelos usuários) de maneira mais organizada possível. Devemos ter opção de usar a base toda (se fizer sentido, "base toda" em um momento delimitado de tempo, por exemplo, todos posts no dia 01 de agosto). Devemos ter opções para segmentar/filtrar a base em subgrupos (por localidade e se possível por atributos disponíveis das pessoas, como idade, sexo, etc...), o mais importante seria segmentar a base em um percentual do total (ou N mínimo) dado que não temos viés algum nessa amostra (sem viés de período de tempo, nem sexo, nem localidade). Isso supondo que as bases a serem analisadas são realmente grandes.

A partir das bases devemos poder calcular:

   N de postagens que possuem um termo "X", ou seja, que possua a substring "X".
   N de postagens que possuem qualquer um dos termos de uma lista {"X1","X2",...,"Xn"}, ou melhor, um grande "OR"
   N de postagens que possuem qualquer um dos termos de uma lista {"X1","X2",...,"Xn"} E não possuem termos de uma outra lista {"Y1","Y2",...,"Yn"}, ou melhor, dois ORs e um NOT.
   Mesmo que 3 itens iniciais mas para pessoas e não postagens.
   Mesmo que 3 itens iniciais mas para pessoas em um subgrupo de pessoas (por exemplo, pessoas de cidade X, pessoas com idade Y)

Objetivos

O principal objetivo com este sistema é possibilitar a análise avançada de dados massivos e então desenvolver com base no projeto de LabXP técnicas de identificação de forma a termos um termômetro da população ou até mesmo o desenvolvimento de previsores capazes de identificar quando uma nova epidemia.

O sistema desenvolvido em LabXP, assim como as técnicas derivadas que forem desenvolvidas por nós serão disponibilizadas gratuitamente como software livre para qualquer entidade pública usar e promover ações mais efetivas de prevenção, por exemplo, campanhas publicitárias para as pessoas lavarem as mãos com álcool assim que for detectado um outbreak de influenza em uma cidade, esse é um exemplo simples devido a sazonalidade, mas o mesmo método pode ser usado para outros tipos de doenças menos previsíveis.

Cliente

Healthbit - André Vale - andre dot vale at healthbit.com.br