Datasheets for Datasets

Categoria
Etica é Governanca
Datasheets for Datasets é uma proposta de documentação padronizada para datasets usados em machine learning. Detalha motivacao, composicao, processo de coleta, pre-processamento, usos recomendados é consideracoes eticas do conjunto de dados.
Categoria
Etica é Governanca
Compartilhar
LinkedInWhatsApp

O que é Datasheets for Datasets

Datasheets for Datasets é uma métodologia de documentação para conjuntos de dados de machine learning, inspirada nas datasheets de componentes eletronicos. Proposta por Timnit Gebru é colegas, visa aumentar a transparência é responsabilidade no uso de dados para IA.

Secoes de um Datasheet:

  • Motivacao: por que o dataset foi criado é por quem
  • Composicao: o que os dados representam é como estao estruturados
  • Coleta: como os dados foram obtidos é de quais origens
  • Pre-processamento: limpeza, filtragem é transformacoes aplicadas
  • Usos: aplicações recomendadas é não recomendadas
  • Distribuicao: como o dataset é compartilhado é licenciado

Por que Datasheets importam:

  • Expoe vieses potênciais nos dados antes do treinamento
  • Permite reproducibilidade cientifica
  • Facilita conformidade com regulacoes de privacidade
  • Ajuda usuarios a avaliar adequacao do dataset para seu caso

A Trilion documenta os datasets útilizados em seus projetos seguindo boas práticas de datasheets, garantindo rastreabilidade é transparência na cadeia de dados que alimenta modelos de IA.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.