Datasheets for Datasets
Categoria
Etica e Governanca
Datasheets for Datasets e uma proposta de documentacao padronizada para datasets usados em machine learning. Detalha motivacao, composicao, processo de coleta, pre-processamento, usos recomendados e consideracoes eticas do conjunto de dados.
Categoria
Etica e Governanca
O que e Datasheets for Datasets
Datasheets for Datasets e uma metodologia de documentacao para conjuntos de dados de machine learning, inspirada nas datasheets de componentes eletronicos. Proposta por Timnit Gebru e colegas, visa aumentar a transparencia e responsabilidade no uso de dados para IA.
Secoes de um Datasheet:
- Motivacao: por que o dataset foi criado e por quem
- Composicao: o que os dados representam e como estao estruturados
- Coleta: como os dados foram obtidos e de quais origens
- Pre-processamento: limpeza, filtragem e transformacoes aplicadas
- Usos: aplicacoes recomendadas e nao recomendadas
- Distribuicao: como o dataset e compartilhado e licenciado
Por que Datasheets importam:
- Expoe vieses potenciais nos dados antes do treinamento
- Permite reproducibilidade cientifica
- Facilita conformidade com regulacoes de privacidade
- Ajuda usuarios a avaliar adequacao do dataset para seu caso
A Trilion documenta os datasets utilizados em seus projetos seguindo boas praticas de datasheets, garantindo rastreabilidade e transparencia na cadeia de dados que alimenta modelos de IA.
