Buscar no Google por termos e informações médicas já é uma atitude normal hoje em dia. É comum uma pessoa, quando apresenta sintomas de alguma doença, procurar pelos sintomas no Google para tentar descobrir alguma coisa, antes mesmo de visitar um médico.
Baseado nesse comportamento, pesquisadores decidiram investigar se haveria alguma correlação entre o número de buscas feitas no Google por determinados sintomas, e a ocorrência na população das doenças relacionadas aos sintomas.
Em um artigo de 2009 da Nature Letters, pesquisadores do Google apresentaram métodos para detectar indícios de epidemias através da análise de milhões de termos associados às doenças e buscados em motores de busca. Estes métodos eventualmente se mostraram menos precisos do que o esperado, mas foram aperfeiçoados e levaram uma ferramenta do Google chamada GFT (Google Flu Trends) para prover estimativas em tempo quase real da ocorrência de Influenza nos Estados Unidos. Os resultados destes métodos não são totalmente precisos, mas servem como mais mecanismo de “sentinela” e monitoramento de doenças ao redor do mundo.
Estes e outros métodos estão sendo usados hoje no rastreamento de ocorrências da Covid-19. Como descrito na coluna do NY Times de 5 de abril de 2020, pesquisadores estão encontrando correlações entre o número de buscas por sintomas associado à Covid-19, e o número de casos da doença. Muitas vezes o aumento do número de buscas em uma determinada região precede um aumento do número de casos.
Por outro lado, buscas por sintomas ainda não “oficialmente” aceitos como sintomas de Covid-19, podem indicar a existência de novos sintomas ainda não considerados. Segundo a coluna do NYTimes, buscas por “Non Sento Odori” (“não sinto cheiro”) na Itália tiveram um pico durante o surto de Covid-19, mas antes que esse sintoma fosse reconhecido como característico de Covid-19.
Com base nestas ideias, nós, da Odysci, resolvemos investigar se correlações parecidas com estas acima, seriam observáveis através de comentários nas redes sociais.
Para tanto, nós monitoramos as redes sociais dos governos e capitais de cada estado do Brasil, durante o período de 31 dias, de 18 de março a 17 de abril de 2020. Foram monitoradas as páginas no Facebook, Instagram, Youtube e Twitter, de cada governo de estado e suas capitais, incluindo o Distrito Federal. Alguns estados ou capitais não dispunham de todas as redes sociais ativas. Ao todo, nós monitoramos 211 páginas (distribuídas entre Facebook, Instagram, Twitter e Youtube), coletamos todas as 26.216 postagens e vídeos, e analisamos 1.060.241 comentários feitos por usuários nas postagens e vídeos, no período de 31 dias.
Em seguida, nosso sistema de busca, buscou por termos relacionados à Covid-19 e seus sintomas esperados, em todos os comentários coletados, e tabulamos o número de resultados por estado e por dia. Os termos buscados foram: covid, corona, arrepios, catarro, coriza, diarreia, dificuldade para respirar, dor articular, dor de cabeça, dor de estômago, dor no olho, febre, náuseas, olhos inchados, perda de olfato, perda de paladar, tosse, vômitos, quarentena, fique em casa, fiqueemcasa, uti, isolamento, distanciamento.
No total, as buscas retornaram 58.859 comentários contendo um ou mais dos termos buscados, ou cerca de 5,55% de todos os comentários coletados.
Nós também coletamos os números de casos novos de Covid-19 por estado e por dia, reportados no site Coronavírus Brasil do Ministério da Saúde.
Os gráficos abaixam mostram os números de comentários contendo termos relacionados à Covid-19 e sintomas, assim como os números de novos casos por estado, no período de 18 de março a 17 de abril de 2020.
A fim de visualizar qualquer correlação entre o número de comentários relacionados à Covid-19 e o número de casos por estado, nós inserimos estas variáveis em um único gráfico onde cada ponto representa um estado do Brasil e o DF, mostrado a seguir.
Como podemos ver neste gráfico há uma correlação clara entre o aumento do número de comentários relacionados à Covid-19 e o número de casos da doença em cada estado.
Alguns estados como Acre e Tocantins fogem um pouco dessa linha ascendente (mais comentários, mais casos). Isso pode ser devido a diversos fatores não considerados nesse artigo, como por exemplo, disponibilidade de internet, acesso a outras fontes de informação, popularidade das redes sociais dos governos e prefeituras.
Segundo o gráfico acima, os estados com mais casos no período considerado foram, em ordem: São Paulo (12677), Rio de Janeiro (4316), Ceará (2679), Pernambuco (1990) e Amazonas (1808).
Agora nós iremos analisar correlações entre o número diário de comentários relacionados à Covid-19 e casos diários nesses estados. A fim de minimizar o efeito de outliers, nós convertemos os dados diários de comentários e casos para a “Média móvel de 5 dias”, que consiste em utilizar a média dos 5 valores mais recentes (do dia sendo considerado e os 4 dias anteriores).
São Paulo
Este gráfico mostra uma clara correlação temporal entre variações (subidas e descidas) no número de comentários relacionados à Covid-19 e o número de casos novos diários.
O gráfico mostra 3 períodos nos quais o número de diários comentários subiu (3/abr, 10/abr, 16/abr), seguidos por 3 períodos nos quais o número de casos diários também subiu. Há um deslocamento temporal entre os picos das duas curvas pois é esperado que os comentários a respeito da doença e sintomas sejam feitos dias antes dos casos da doença se confirmarem.
O caso de São Paulo é significativo pois os números de comentários e casos são bem altos, permitindo observar correlações bem claras e definidas.
Rio de Janeiro
No caso do estado do Rio de Janeiro, verificamos um aumento no número de comentários no fim de março, seguido de um aumento consistente no número de casos em abril.
Ceará
No caso do Ceará, tivemos um aumento no número de comentários no fim de março, que foi seguido por um aumento no número de casos no início de abril. O número de comentários voltou a subir entre 11 e 15 de abril, e foi seguido por um aumento rápido no número de casos a partir de 13 de abril.
Pernambuco
Em Pernambuco, observamos um aumento no número de comentários no fim de março, o que foi seguido por um aumento consistente de casos nas duas primeiras semanas de abril.
Amazonas
No Amazonas, tivemos um volume de comentários maior no fim de março, e isso foi seguido por um aumento no número de casos em abril.
Considerando estes 5 estados acima, podemos ver que há uma correlação temporal entre o aumento no número de comentários relacionados à Covid-19 e o aumento no número de caso da doença.
Esta correlação é defasada por um ou mais dias, pois é esperado que os comentários a respeito da doença e sintomas sejam feitos dias antes dos casos da doença se confirmarem. Além disso, o efeito temporal da correlação varia de estado para estado.
Em São Paulo, notamos 3 “ondas” de comentários, seguidos de 3 “ondas” de casos. Já no Amazonas, houve uma única “onda” de comentários seguida de uma “onda” de casos. As razões por essas variações temporais não são óbvias nesse momento, e precisarão ser mais estudadas, mas a correlação temporal é bem visível em todos os casos.
As análises apresentadas aqui fornecem indicações concretas que os comentários feitos pelos usuários nas redes sociais a respeito de Covid-19 e seus sintomas têm correlação com a ocorrência de casos da doença. As análises foram feitas nas redes sociais dos governos e capitais de todos os estados do Brasil, pois consideramos que as pessoas acessariam estas páginas, como as fontes oficiais de informação.
Certamente, esta análise poderá ser melhorada significativamente se incluirmos muitas outras páginas de redes sociais, que usuários possam visitar para obter informações sobre a doença, e deixar seus comentários, como páginas de hospitais, jornais online, sites relacionados à saúde, e muito outros similares.
Apesar do grande número de comentários analisados, isto ainda é uma pequena amostragem para se poder tirar conclusões definitivas. Mas acreditamos que os dados das redes sociais, em casos de epidemias como Covid-19, possam servir como mais um indicador do sentimento geral da população, e uma sentinela adicional na detecção de possíveis casos ainda não reportados.
Cover image Designed by Freepik.