Cartilha Técnica para Publicação de Dados Abertos no Brasil v1.0
Secretaria de Logística e Tecnologia da Informação – SLTI Ministério do Planejamento Orçamento e Gestão – MP Desde 2009 o governo brasileiro vem realizando ações para o desenvolvimento de uma política de disseminação de dados e informações governamentais para o livre uso pela sociedade. Estas ações estão alinhadas com um crescente movimento global para democratização do acesso à dados e informações no paradigma de dados abertos. O movimento por dados abertos defende a criação de um ecossistema, fundamentado no acesso à dados, que possibilite a participação da sociedade no desenvolvimento de um estado mais eficiente, com oferta de melhores serviços, e fazendo amplo uso de tecnologias. Com o objetivo de orientar as organizações governamentais brasileiras quanto às boas práticas de publicação de dados na Internet e o devido cumprimento dos critérios técnicos relacionados ao paradigma de dados abertos, é que o Ministério do Planejamento, Orçamento e Gestão disponibiliza a Cartilha Técnica para Publicação de Dados Abertos no Brasil. Este documento é inspirado em uma norma técnica do governo do Chile para publicação de dados abertos (Propuesta de Norma Técnica para Publicación de Datos en Chile). Depositamos aqui os nossos elogios e agradecimentos por esta exemplar contribuição à comunidade de dados abertos. Dados Abertos constituem a publicação e disseminação de dados e informações públicas na Web, seguindo alguns critérios que possibilitam sua reutilização e o desenvolvimento de aplicativos por toda a sociedade. A maior parte dos dados e informações geradas ou mantidas pelo governo, são públicas. Disponibilizar dados na Web não é uma prática recente no governo, porém com uma política de dados abertos, o governo sinaliza que pretende padronizar e alavancar a disseminação de dados públicos por todos os órgãos. O paradigma de dados abertos está fundamentado na constatação de que o dado, quando compartilhado abertamente, tem seu valor e seu uso potencializados. Com isso o governo pretende desenvolver um ecossistema de dados e informações que beneficia a sociedade e possibilita o envolvimento de todos seus setores, inclusive a iniciativa privada, o setor acadêmico e o próprio governo. O movimento de dados abertos no mundo foi alavancado há pouco mais de 3 anos quando os governos da Inglaterra e dos Estados Unidos iniciaram a construção de seus portais de dados abertos. Desde então políticas de dados abertos vêm sendo implementadas em diversos países. Em setembro de 2011 oito nações se uniram para firmar uma parceria com o objetivo de promover governos mais transparentes e eficientes, através de uma maior participação e colaboração social. A Parceria para Governo Aberto (OGP do inglês) é co-liderada pelo Brasil e pelos Estados Unidos da América. Em novembro de 2011 foi sancionada a Lei de Acesso à Informação (12.527/2011) que tem o propósito de regulamentar o direito constitucional de acesso dos cidadãos às informações públicas. É nesse contexto que a Secretaria de Logística e Tecnologia da Informação – SLTI do Ministério do Planejamento, Orçamento e Gestão – MP vem desenvolvendo a Infraestrutura Nacional de Dados Abertos. A INDA é um conjunto de padrões, tecnologias, procedimentos e mecanismos de controle necessários para atender às condições de disseminação e compartilhamento de dados e informações públicas no modelo de Dados Abertos. O principal projeto da INDA é o Portal Brasileiro de Dados Abertos – dados.gov.br, que tem o objetivo de ser o ponto central para a publicação, a busca e o acesso de dados públicos no brasil. A arquitetura da Infraestrutura Nacional de Dados Abertos compreende todos os órgãos do governo, em todas esferas e poderes, disponibilizando dados públicos à toda a sociedade, incluindo instituições privadas, organizações não governamentais e o próprio governo. Para que essa arquitetura seja implementada conjuntamente por todos os órgãos do governo, é imprescindível a definição de padrões e o alinhamento dos processos de publicação de dados na Internet, com metodologias e boas práticas comuns, que garantam a conformidade com esses padrões. O objetivo deste documento é o estabelecimento de diretrizes para que os dados públicos governamentais do Brasil constituam a Infraestrutura Nacional de Dados Abertos, contribuindo para a democratização da do acesso à informação na sociedade. As diretrizes aqui dispostas compreendem requisitos mínimos para que uma organização pública seja capaz de preparar os conjuntos de dados, implemente o processo de publicação destes na Internet e a sua catalogação no dados.gov.br – Portal Brasileiro de Dados Abertos. O Portal Brasileiro de Dados Abertos tem como principal objetivo ser o ponto central para a busca e o acesso a dados públicos governamentais no Brasil. O portal tem sua estrutura baseada na arquitetura da Web. Cada conjunto de dados (dataset, no inglês) deve estar logicamente referenciável na Web. Dessa forma, o portal é apenas o serviço que possibilita que esse conjunto de dados possa ser encontrado dentre as centenas de milhares de outros conjuntos de dados. Em outras palavras, a Infraestrutura Nacional de Dados Abertos está fundamentada numa arquitetura distribuída, onde tanto a infraestrutura física como a responsabilidade pela manutenção do portal, é compartilhada entre os órgãos que publicam dados. Dessa forma, toda organização que desejar publicar conjuntos de dados deverá manter um repositório de dados disponível na Web sobe sua supervisão. Existem diferentes formas de construção de repositório de dados na Web. Isso pode ser alcançado utilizando uma Ferramenta de Gestão de Conteúdo (CMS do inglês), que geralmente é utilizada no portal institucional dos órgãos. Além disso, cada órgão deve possuir procedimentos e normas para manutenção deste catálogo, e ter um responsável do órgão encarregado por garantir a integridade, a disponibilidade e a autenticidade dos dados disponíveis neste repositório. Devem ser garantidos os seguintes requisitos técnicos: Cada órgão é responsável pela publicação dos conjuntos de dados públicos sob sua posse ou responsabilidade. Apesar do termo “Dados Abertos” estar em evidência, a publicação de dados públicos por instituições governamentais não é uma prática nova. Diversos órgãos têm a cultura de publicar dados na Internet, como IBGE, DataSus, IPEA, INEP, entre outros. Apesar de muitos órgãos e entidades não possuírem, dentre suas atribuições finalísticas, a divulgação de dados ao público, é improvável que eles não possuam dados que sejam públicos. Conforme dispõe a Lei 12.527 / 2011, em seu Art. 8º, §1º, no mínimo, precisam ser publicadas as seguintes informações que são comuns a todos os órgãos e entidades: Em alguns órgãos que disseminam grandes volumes de dados na Internet, como o IBGE, existem processos institucionalizados para operacionalização desta atividade. Mesmo para os órgãos pequenos é imprescindível o desenvolvimento de uma cultura de publicização de dados e informações. Com o objetivo de orientar o desenvolvimento de um processo de gestão das ações para publicação de dados abertos dentro de um órgão, a INDA disponibiliza um documento orientativo chamado Guia de Abertura de Dados. Semelhantemente, com o objetivo de orientar a implementação de módulos de dados abertos para dados que estão armazenados em banco de dados ou sistemas, a INDA disponibiliza um documento chamado Arquitetura Técnica Referencial para Abertura de Dados. De maneira simplificada, para que um conjunto de dados esteja apto a constituir a Infraestrutura Nacional de Dados Abertos, o responsável pelo repositório de dados daquele órgão deve garantir que este conjunto de dados cumpra as seguintes condições gerais: A filosofia de dados abertos não define exaustivamente uma lista de formatos permitidos. Para ser considerado um dado aberto, o conjunto de dados deve estar disponível em um formato de especificação aberta, não proprietário, e estruturado, ou seja, que possibilite seu uso irrestrito e automatizado através da Web. Além disso, é imprescindível que seja utilizado um formato amplamente conhecido. É importante enfatizar a importância de dados estruturados. Um erro recorrente cometido por diversas instituições é a publicação em formato PDF de planilhas de dados. O PDF é um formato não estruturado, e ao fazer isso – desestruturação dos dados – o publicador está inviabilizando, ou dificultado, a reutilização daqueles dados. A seguir uma lista de diversos formatos não proprietários para dados abertos: Além desses existem outros formatos, como: SVG (Scalable Vector Graphics) utilizado para dados vetoriais e geográficos, GML (Geography Markup Language) útil para exprimir características e exportação de dados geográficos, HTML/RDFa é a incorporação de marcações semânticas com uso de RDF sobre as tags HTML de uma página. Para saber mais sobre formatos abertos consulte a e-PING (Padrões de Interoperabilidade de Governo Eletrônico) em http://eping.governoeletronico.gov.br/. Para a publicação de dados cartográficos e espaciais, consulte padronização na Infraestrutura Nacional de Dados Espaciais – INDE em http://inde.gov.br/. A escolha do padrão a ser utilizado pelo órgão na publicação dos dados abertos deve levar em consideração a capacidade tecnológica do órgão e o público alvo que utilizará aqueles dados. É desaconselhável o empacotamento de diversos arquivos assim como a compressão de arquivos. Em casos especiais, na existência de muitos arquivos, ou manipulação de arquivos com grande capacidade de compressão, recomenda-se a utilização de formatos abertos de compactação como o 7Z, TAR/GZIP ou ZIP. A publicação é o processo da disponibilização permanente do conjunto de dados, por um órgão ou uma entidade, na Internet para uso irrestrito da sociedade. Este processo compreende não apenas a publicação dos dados em si, mas também dos seus metadados. Metadados são dados sobre os dados, ou seja, são informações que possibilitam organizar, classificar, relacionar e inferir novos dados sobre o conjunto de dados. A quantidade e a qualidade dos metadados de um conjunto de dados podem determinar a utilidade daquele conjunto de dados. Em outras palavras, mais e melhores metadados agregam mais valor ao conjunto de dados, além de melhorar sua classificação e a busca sobre ele. A seguir são definidos um conjunto de metadados obrigatórios e um conjunto de metadados desejáveis. Um catálogo de dados é um serviço disponível para que o usuário tenha acesso aos dados publicados pelo órgão ou entidade. O catálogo tem o objetivo de simplificar a busca e o acesso aos conjuntos de dados através de ferramentas. O catálogo pode ser visto como a organização dos metadados dos conjuntos de dados do repositório. O catálogo deve ser acessível a partir do portal institucional do órgão ou entidade. Existem diversas formas de se implementar um catálogo de dados. Uma simples página contendo a lista de arquivos de dados, e seus respectivos metadados, pode ser considerada um catálogo. O governo federal desenvolveu o Portal Brasileiro de Dados Abertos (http://dados.gov.br/), com o objetivo de ser o catálogo central do Brasil. Cada órgão ou entidade pode desenvolver um catálogo próprio, todavia este deve ser integrado com o catálogo central, ou seja, deve existir uma registro no Portal Brasileiro de Dados Abertos para cada conjunto de dados no catálogo do órgão ou entidade. Alguns requisitos para o catálogo: A Secretaria de Logística e Tecnologia da Informação – SLTI do Ministério do Planejameto, Orçamento e Gestão fornecerá, manterá e administrará o serviço web dados.gov.br (Portal Brasileiro de Dados Abertos) que disponibilizará acesso aos dados abertos Governamentais do Brasil (Ver 6.a sobre Macrocronograma). O dados.gov.br é uma ferramenta para catalogação, busca e acesso a dados abertos. Nele deverão ser catalogados todos os dados públicos do governo brasileiro. Cada órgão ou entidade será responsável pela catalogação e manutenção dos seus próprios registros de conjuntos de dados que publica. Cada órgão ou entidade integrante da INDA deverá indicar um servidor responsável pela catalogação dos dados de sua instituição. O órgão ou entidade que desejar fazer adesão à INDA deve entrar em contato por email através do formulário de contato. A coordenação da Infraestrutura Nacional de Dados Abertos – INDA é realizada pela Secretaria de Logística e Tecnologia da Informação do Ministério do Planejamento, Orçamento e Gestão. O portal é um produto do Grupo de Trabalho 3 – Tecnologia. O seu desenvolvimento é colaborativo e acontece abertamente, qualquer um, e qualquer instituição pode participar. Para participar acesse a wiki do projeto em http://wiki.gtinda.ibge.gov.br/. A seguir algumas situações especiais do processo de abertura e publicação de dados públicos: O catálogo de dados do Portal dados.gov.br faz referência à dados publicados por todos os órgãos do governo brasileiro. Cada órgão é responsável pela catalogação e atualização dos metadados dos dados que dissemina na Internet. Esta atividade deve ser desempenhada por servidor do órgão indicado no momento da adesão deste órgão à INDA. A atividade de manutenção deve respeitar os seguintes princípios:1 . Apresentação
2 . Introdução
3 . INDA
4 . Objetivo
5 . Premissas
6 . A publicação de Dados Abertos
6.1 . Preparação e Validação
6.2 . Formatos
É um acrônimo para JavaScript Object Notation. É um padrão aberto de estruturação de dados baseado em texto e legível por humano. A especificação é a RFC 4627. JSON ganhou maior utilização com o advento do Ajax. A serialização em JSON é muito simples e resulta em uma estrutura pouco verbosa o que se mostra uma ótima alternativa para o XML. JSON possibilita serialização de estrutura de objetos complexos, como listas e subpropriedades. JSON está se tornando o padrão mais utilizado para integração de dados entre repositórios e frameworks, também está se tornando o padrão nativo de armazenamento em alguns bancos de dados modernos.
Significa Extensible Markup Language. É um conjunto de regras para codificar documentos com estrutura hierárquica e em um formato legível por máquina. É baseado em texto e tem como principais objetivos simplicidade, extensibilidade e usabilidade. XML é largamente utilizado como formato de troca de dados nos clássicos Web Services SOAP. Possui uma ampla gama de ferramentas associadas, tais como o padrão XSLT que permite transformar para outra estrutura XML ou outro formato. Apesar de sua ampla utilização, tem sido menos encorajada a utilização desse formato para integração de aplicações na Web, por utilizar mais recursos para transmissão e para o processamento do dados. Em substituição, recomenda-se utilizar JSON.
Significa Comma-Separated Values, ou valores separados por vírgula, e é um formato para armazenamento de dados tabulares em texto. A codificação é muito simples: cada linha do arquivo representa uma linha na tabela, e as colunas são separadas por vírgula. Campos que podem conter vírgula devem ser delimitados por aspas. CSV é recomendado para representação de estrutura de dados mais simples, de natureza tabular, onde não existem subpropriedades ou listas, gerando um arquivo menor e mais leve para processamento. Arquivos CSV são processáveis diretamente por editores de planilhas, como o OpenOffice e o MS Excel.
Significa Open Document Spreadsheet, é um formato não proprietário de arquivo basedo em XML, padronizado pela ABNT sob a norma NBR ISO/IEC 26300:2006. É comumente chamado de planilha, similar ao XLS do MS Office Excel, porém aberto, por isso deve ser utilizado em substituição ao XLS. Planilhas são largamente utilizadas, são de fácil utilização e manipuláveis por diversos aplicativos. Apesar de ser um formato estruturado, é muito flexível, possibilitando manipulação e mistura de diversos tipos de dados, como imagens e textos formatados. Para a publicação de dados abertos tabulares, é recomendável a utilização de CSV, pela sua simplicidade e padronização.
Significa Resource Description Framework, é um modelo de dados estruturado em grafos e possui diversos formatos de serialização, tais como RDF/XML, Notation 3 e Turtle. Os formatos baseados em RDF têm seus dados descritos em vocabulários disponíveis na Web. Apesar da grande qualidade dos dados disponibilizados em RDF, a construção de vocabulários para seu uso não é trivial. Numa escala de níveis de qualidade/complexidade de dados abertos, o RDF está no último nível, onde se constituirá a Web semântica.7 . Publicação
7.1 . Metadados
Metadados obrigatórios
Metadados desejáveis:
7.2 . Catálogos
7.3 . Publicação no dados.gov.br
8 . Coordenação e Manutenção do Portal
8.1 . Macrocronograma
MarcoPrazo
Lançamento do Portal dados.gov.br (Versão beta)
Dezembro de 2011
Avaliação e evolução do portal
Dezembro de 2011 a Abril de 2012
Mobilização dos órgãos e crescimento do catálogo
Abril de 2012 a Dezembro de 2012
8.2 . Situações Especiais
8.3 . Manutenção do catálogo