Como tornar as inteligências artificiais mais imparciais

dezembro 17, 2018 por Gabriel Carvalho

Com máquinas equipadas com sistemas de aprendizagem hoje sendo usadas para determinar tudo desde os preços do mercado a diagnósticos médicos, nunca foi tão importante compreender e examinar como essas decisões são tomadas.

Um novo estudo direto do Instituto de Tecnologia de Massachussetts demonstra que os responsáveis não são os algoritmos, mas os próprios métodos com que os dados são coletados.

“Cientistas da computação são frequentemente bem rápidos em dizer que a melhor maneira de tornar esses sistemas mais imparciais é simplesmente desenvolver algoritmos melhores”, diz a autora Irene Chen, uma estudante de PhD que escreveu o artigo com o professor do MIT David Sontag e o pós-doutorado associado Fredrik D. Johansson. “Mas algoritmos só são tão bons quanto os dados que estão usando, e nossa pesquisa mostra que você pode fazer uma diferença enorme com dados melhores.”

Olhando para exemplos específicos, os pesquisadores foram capazes de identificar tanto causas potenciais para diferenças na precisão e quantificar cada fator de impacto individual dos dados. Eles então demonstraram como mudar a forma com que os dados são coletados pode reduzir cada tipo de parcialidade nos resultados enquanto mantendo o mesmo nível de precisão preditiva.

“Enxergamos isso como uma caixa de ferramentas para ajudar engenheiros que trabalham com aprendizado de sistemas a descobrir quais questões fazer aos seus dados para diagnosticar a razão de seus sistemas estarem fazendo predições imprecisas,” diz Sontag.

Chen diz que um dos maiores erros é acreditar que mais informações é sempre bom. Envolver mais participantes nem sempre é necessariamente benéfico, já que estudar sempre a mesma população frequentemente leva a outros subgrupos sendo ignorados e mal representados. Até mesmo o famoso banco de imagens ImageNet, com suas milhões de fotos, mostra uma parcialidade que favorece o hemisfério norte.

De acordo com Sontag, muitas vezes a chave é ir atrás da coleta de dados desses subgrupos pouco representados. Por exemplo, a equipe analisou um sistema de predição de renda e descobriu que era duas vezes mais comum relacionar erroneamente trabalhadoras mulheres com salários baixos e trabalhadores homens com salários altos. Tivesse a equipe aumentado o conjunto de dados por um fator de 10, esses erros seriam 40% menos frequentes.

Em outro conjunto de dados, os pesquisadores descobriram que a habilidade de um sistema de predizer a mortalidade em uma Unidade de Tratamento Intensivo era menos precisa no caso de pacientes asiáticos. Em contra partida, medidas existentes que poderiam reduzir essa discriminação do sistema acabariam resultando em uma imprecisão dos casos contrários – ou seja, dos não-asiáticos – o que é problemático quando levamos em consideração os parâmetros da saúde, que são uma questão de vida ou morte.

Chen diz que sua medida permite olhar para um conjunto de dados e determinar quantos participantes de diferentes populações são necessários para melhorar a precisão de um determinado grupo “desfavorecido”, enquanto ainda preservando a precisão intacta dos demais grupos.

“Podemos projetar curvas de trajetórias para ver o que aconteceria se adicionássemos 2,000 pessoas a mais ao invés de 20,000, e desses números descobrir qual o tamanho que o conjunto de dados deveria ter para termos o melhor de dois mundos,” diz Chen. “Com uma abordagem mais sutil como esta, hospitais e outras instituições estariam melhor equipadas para produzir análises de custo-benefício para estudar se seria útil obter um maior número de dados.”

Também é possível tentar obter dados adicionais dos participantes já existentes. Contudo, isso não melhorará nada se os dados não forem relevantes (por exemplo, a altura de uma pessoa é inútil em um estudo sobre QI). Portanto torna-se uma questão de saber quando e de quem coletar mais informações.

Um método é identificar grupos de pacientes com grandes disparidades em precisões de resultados. Para pacientes internados na UTI, um método de agrupamento em texto chamado modelagem de tópicos revelou que pacientes que sofriam com câncer e problemas cardíacos possuíam amplas diferenças raciais na precisão. Esse achado pode sugerir que mais testes diagnósticos para pacientes cardíacos ou com câncer poderia reduzir tais disparidades.

A equipe apresentará o artigo em dezembro na conferência anual sobre Sistemas Neurais de Processamento de Informação (NIPS), em Montreal.