sábado, 2 de setembro de 2017

o que é ciência de dados ?


A ciência de dados, ou data science, é uma área cientifica nova que entrou em evidencia nos últimos anos. Recentemente foi classificada por diversas revistas como a carreira mais "sexy" e mais quente do século 21 e com isso muitas pessoas passaram a se dizer cientista de dados em seus curriculum e Linkedin (talvez em busca de mais matches no Tinder, quem sabe?). Mas por que todo esse frisson em torno dessa área ?



Precisamos definir o que é ciência de dados, mas não sem antes definir o que são dados.
Dados podem ser definidos como  observações documentadas ou resultados de medições (http://www.ime.unicamp.br/~hildete/dados.pdf).  No mundo de hoje, o fato de você andar na rua com o seu smartphone no bolso, já gera uma grande diversidade de dados. Alguns aplicativos coletam o número de passos que você deu, se você subiu uma escada ou andou de bicicleta. Outros aplicativos coletam informações até mesmo sobre sensores do seu aparelho, como o giroscópio. Sem contar geolocalização e quem sabe ate mesmo o áudio do ambiente ao seu redor.

Outro exemplo são experimentos científicos, que os resultados são nada mais do que dados. Sequenciamento de DNA, contagem de células em um meio de cultura ou imagens capturadas por um telescópio. Alem disso, ainda ha pesquisas de opinião, censo, etc. Dados, dados e mais dados.
Estima-se que  de todos os dados disponíveis nos dias de hoje, 80 a 90% foram gerados nos últimos 2 anos, devido ao avanço em diversas tecnologias de coleta e armazenamento desses dados. Mas pra que serve tudo isso?

Dado em si não significa informação ou conhecimento. Para que o dado se torne informação relevante, ele precisa ser analisado, interpretado, minerado. É nesse ponto que entra o cientista de dados, utilizando ferramentas estatísticas e computacionais como data mining (mineração de dados), machine learning (aprendizado de maquina), etc.



O cientista de dados precisa fundamentalmente ter habilidades computacionais (dominar pelo menos uma linguagem de programação, de preferencia R ou Python), ter um bom conhecimento em estatística e matemática, e alem de tudo, experiência na área de conhecimento sobre o qual se tratam os dados a serem analisados. Por exemplo, um analista de dados que for trabalhar para uma operadora da bolsa de valores, precisa ter conhecimento na área do mercado de ações, para que possa interpretar facilmente os dados, identificar padrões, etc. Já o cientista de dados trabalhando para a indústria farmacêutica muito provavelmente vai precisar de conhecimentos na área de ciências biomédicas.





Por se tratar de uma área  multi-disciplinar, o número de profissionais está muito aquém do número exigido pelo mercado. Isso por si eleva os salários desses profissionais. Além de tudo, uma boa análise de dados tem potencial de gerar muito dinheiro para as empresas. Gigantes como amazon.com investem pesado no setor, para desenvolver algoritmos que, por exemplo, criem sugestões de compras mais efetivas para os usuários que navegam no site. A partir de dados de compras anteriores, o algoritmo pode predizer com certo grau de certeza, qual produto você gostaria de comprar.
Empresas de cartão de crédito conseguem ate mesmo predizer se você vai pagar a sua fatura em dia, pelo tipo de produto que você comprou. Isso é para eles uma verdadeira mina de ouro.

Nas ciências biomédicas, dados genéticos de uma grande quantidade de pessoas, associados a dados sobre a saúde das pessoas, pode levar a novos insights sobre quais mutações genéticas estariam causando determinada doença ou característica (como alergia ou baixa resposta a certos medicamentos).
Porém, antes de mais nada é necessário acumular um volume de dados suficientes para "treinar" os modelos de maneira que eles possam fazer predições acuradas. É o que vem sendo feito desde a era da genômica e pós-genômica. Em paralelo, novos algoritmos computacionais estão sendo desenvolvidos para lidar com esse grande volume de dados gerados, como parte de uma ciência chamada de "Big Data".
Sem sombra de dúvidas, veremos nos próximos anos grande avanços nessa área, e provavelmente isso causará mudanças dramáticas no mundo em que vivemos.

RC

Nenhum comentário:

Postar um comentário