Datasheets for Datasets

Categoria
Etica e Governanca
Datasheets for Datasets e uma proposta de documentacao padronizada para datasets usados em machine learning. Detalha motivacao, composicao, processo de coleta, pre-processamento, usos recomendados e consideracoes eticas do conjunto de dados.
Categoria
Etica e Governanca
Compartilhar
LinkedInWhatsApp

O que e Datasheets for Datasets

Datasheets for Datasets e uma metodologia de documentacao para conjuntos de dados de machine learning, inspirada nas datasheets de componentes eletronicos. Proposta por Timnit Gebru e colegas, visa aumentar a transparencia e responsabilidade no uso de dados para IA.

Secoes de um Datasheet:

  • Motivacao: por que o dataset foi criado e por quem
  • Composicao: o que os dados representam e como estao estruturados
  • Coleta: como os dados foram obtidos e de quais origens
  • Pre-processamento: limpeza, filtragem e transformacoes aplicadas
  • Usos: aplicacoes recomendadas e nao recomendadas
  • Distribuicao: como o dataset e compartilhado e licenciado

Por que Datasheets importam:

  • Expoe vieses potenciais nos dados antes do treinamento
  • Permite reproducibilidade cientifica
  • Facilita conformidade com regulacoes de privacidade
  • Ajuda usuarios a avaliar adequacao do dataset para seu caso

A Trilion documenta os datasets utilizados em seus projetos seguindo boas praticas de datasheets, garantindo rastreabilidade e transparencia na cadeia de dados que alimenta modelos de IA.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.