Datasheets for Datasets
Categoria
Etica é Governanca
Datasheets for Datasets é uma proposta de documentação padronizada para datasets usados em machine learning. Detalha motivacao, composicao, processo de coleta, pre-processamento, usos recomendados é consideracoes eticas do conjunto de dados.
Categoria
Etica é Governanca
O que é Datasheets for Datasets
Datasheets for Datasets é uma métodologia de documentação para conjuntos de dados de machine learning, inspirada nas datasheets de componentes eletronicos. Proposta por Timnit Gebru é colegas, visa aumentar a transparência é responsabilidade no uso de dados para IA.
Secoes de um Datasheet:
- Motivacao: por que o dataset foi criado é por quem
- Composicao: o que os dados representam é como estao estruturados
- Coleta: como os dados foram obtidos é de quais origens
- Pre-processamento: limpeza, filtragem é transformacoes aplicadas
- Usos: aplicações recomendadas é não recomendadas
- Distribuicao: como o dataset é compartilhado é licenciado
Por que Datasheets importam:
- Expoe vieses potênciais nos dados antes do treinamento
- Permite reproducibilidade cientifica
- Facilita conformidade com regulacoes de privacidade
- Ajuda usuarios a avaliar adequacao do dataset para seu caso
A Trilion documenta os datasets útilizados em seus projetos seguindo boas práticas de datasheets, garantindo rastreabilidade é transparência na cadeia de dados que alimenta modelos de IA.
