Olá!
Meu nome é Lucas.
Sou geneticista de formação e venho atuando com análise/ciência de dados já há alguns anos. Atuo no mercado de trabalho e também presto consultoria para projetos acadêmicos.
Comecei minha carreira trabalhando com pesquisa em bioinformática, especificamente com evolução molecular e inferência bayesiana, temas de meu bacharelado e mestrado, conduzidos na Universidade Federal do Rio de Janeiro. Este contexto foi a base de meu conhecimento em estatística e programação (principalmente em R).
Também trabalhei no Centro Nacional de Conservação da Flora do Brasil, no Jardim Botânico do Rio de Janeiro. Lá, além de ser analista ambiental, também fui analista de dados, usando R para automatizar processos, fazer análises estatísticas e responder perguntas em geral, atividade que passou a ser integral em minha rotina. Esse período foi de valioso aprendizado, uma vez que apliquei meu conhecimento em pesquisas mais voltadas a políticas públicas, lidando com uma série de dados de origens distintas e um contexto diverso, fora de minha “zona de conforto”.
A valorização do meu trabalho como cientista de dados me levou a prestar consultorias em tempo integral, ao passo que me capacitava em ferramentas com maior demanda no mercado.
Acredito que a tecnologia é fundamental na tomada de boas decisões e para agilizar a resolução de problemas em amplo espectro (locais, globais, de pequeno ou grande porte). Também prezo pela importância da boa comunicação, tanto de dados quanto de informações científicas. Além disso, vejo de maneira igualmente importante a transparência, robustez e reprodutibilidade de análises, como é de praxe na boa ciência.
Minhas principais linhas de atuação:
-
R e Python para análise de dados (e SQL para consultas):
Minha linguagem preferencial é R, onde me sinto em casa usando as ferramentas e sintaxe propocionadas pelotidyverse
. Ainda assim, também usopython
(pandas, matplotlib, seaborn, scikit-learn), embora em menor escala. Uso destas ferramentas para extrair, limpar, compilar, analisar e visualizar dados de diversas fontes, estruturados ou não. Também sou capacitado em SQL para consulta de dados de bases relacionais. -
Estatística e machine learning:
Uso ferramentas da estatística para responder perguntas e verificar a robustez de análises, através, por exemplo, de testes de hipóteses ou estatísticas descritivas. Também implemento modelos de machine learning, como regressões logísticas, métodos em geral que fazem uso do gradiente descendente ou modelos de clusterização. Grande parte desse processo se resume a encontrar a ferramenta adequada ao problema a ser resolvido e fazer o ajuste fino a partir desse ponto. Também igualmente importante, está a engenharia de variáveis, que visa selecionar os dados mais relevantes dentre todas opções, para se atingir o objetivo pretendido. Sei escrever código production ready e performático. -
Visualização de dados:
Fundamental para enxergar padrões, transmitir mensagens e/ou gerar insights, gráficos podem fazer toda diferença na compreensão da informação contida nos dados. Faço gráficos customizados tanto para relatórios, quanto para veículos de comunicação diversos, além de ter experiência na compilação de dashboards e ferramentas de B.I. (Looker). Embora não seja o foco, também acredito que um bom design torne tudo mais atraente. -
Comunicação:
Muitas vezes o público alvo de uma análise não é formada por técnicos, e, sendo assim, a informação deve ser traduzida, induzindo a fácil compreensão de temas complexos. Outras vezes precisamos alterar um texto diversas vezes conforme análises ainda estão sendo realizadas. Acostumado com ambos casos (a academia nos prepara para isso), auxilio na redação de textos/relatórios/apresentações, ocasionalmente fazendo uso de ferramentas comormarkdown
para pulicações diversas.
Blog, portfolio & snippets
Testando múltiplos modelos supervisionados & tunados!
Comparando três modelos supervisionados de classificação usando uma busca em grid para tunar hiperparâmetros, também testando dados pré-processados de maneira distinta e com diferentes fórmulas. Tudo isso de maneira automatizada usando o framework do tidymodels
!
Read more