Avançar para o conteúdo principal

Projecto Gutenberg

Depois do último post em que vos falava do projecto Dicionário Aberto, hoje vou falar-vos um pouco do Projecto Gutenberg, e do Distributed Proofreaders.

O Projecto Gutenberg pretende a preservação de documentos escritos que já se encontram em domínio público, em qualquer língua. Exemplos de documentos actualmente preservados pelo Projecto Gutenberg são as obras de Shakespeare ou os Lusíadas, de Luís de Camões.

No caso português (e corrijam-me se estiver errado), um documento escrito entra no domínio público passados 70 anos da morte do autor, ou 70 anos depois da publicação da obra (o que acontecer mais tarde).

Os documentos são preservados em formatos abertos e textuais. Normalmente é priveligiado o formato textual puro, embora existam livros em HTML e, poucos em Rich Text Format (este, menos aberto). Existem também alguns documentos que são preservados oralmente, em MP3. Este tipo de documentos é essencialmente útil para invisuais

Como também vos disse no último post, o processo de transcrição é manual, já que os OCR existentes não conseguem reconhecer com qualidade texto de documentos antigos.

É nesta altura que entra o Distributed Proofreaders, onde as imagens dos livros são carregadas, juntamente com uma versão inicial do texto, obtido por OCR. O processo manual revê (e volta a rever) o texto, em várias rondas. Assim que o documento estiver pronto, é integrado no Projecto Gutenberg.

Brevemente espero escrever sobre os vários passos necessários para contribuir para qualquer um destes projectos.

Já agora, não lembra nem ao Diabo, mas o Projecto Gutenberg já alberga mais de 400 GB de documentos.

Comentários

Anónimo disse…
Mais do que manual, o processo de transcrição é semi-automático, não?
E mais ainda com ferramentas como "Faz-me a papinha toda"
Depois da inscrição no Distributed Proofreaders é-nos enviado um e-mail com informação útil sobre o projecto. Útil é também, quanto a mim, o blog "http://pagina-a-pagina.blogspot.com/", referenciado no e-mail de boas-vindas que, como vem descrito no espaço de descrição, pretende ser "Sítio de apoio aos Voluntários de Língua Portuguesa do Projecto".

Mensagens populares deste blogue

Vila Nova de Famalicão sem Cinema

Vila Nova de Famalicão nasceu numa encruzilhada, entre Braga, Porto, Barcelos, Guimarães, todas cidades seculares. Nesta encruzilhada foi surgindo a necessidade de pernoitar, surgiram os caminhos de ferro, a indústria dos relógios, na já falecida "A Boa Reguladora", e, pouco a pouco, a cidade surgiu. Originalmente tínhamos um teatro, o Cine-Teatro Augusto Correia. Pelo nome já depreendem que tinha uma sala polivalente, que permitia assistir a cinema ou a teatro. Com o tempo surgiu a mania dos Shoppings , e o Shopping Town , único da cidade que merece tal nome, abriu, incluindo um cinema. O Cine-Teatro Augusto Correia foi ficando velho e mais tarde fechou (entretanto demolido, e já oupado por novo prédio habitacional). Este cinema, no Shopping Town foi-se aguentando. É verdade que um cinema numa cidade pequena não pode ter grande variedade de filmes (fica demasiado caro). Mas os filmes mais falados acabavam por passar em Famalicão. Entretanto, eis que surgem os hipermercados,...

Incoerências ou falta de conhecimentos lógicos

Infelizmente estou a ler o livro " Desenvolvimento de Sistemas de Informação ", de Filomena Lopes , Maria Morais e Armando Carvalho , da FCA, Editora de Informática. O "Infelizmente" porque a minha opinião até ao momento é de que o conceito de DSI é mais treta do que quaquer outra coisa relevante. Mas não é isso que quero discutir, porque os meus conhecimentos de causa ainda são poucos. O que quero aqui referir é a falta de análise lógica dos autores. Algures na discussão de informação, organização e sistema de informação, afirmam: Poder-se-á dizer que não há organização sem informação, nem sistema de informação sem informação e, consequentemente, não há organização sem sistema de informação. Ora, transformemos esta afirmação em lógica de primeira ordem: (~ informação => ~ organização) e (~ informação => ~ sistema informação) então (~ sistema informação => ~organização) Simplificando, P = ((~A => ~B) /\ (~A => ~C)) => (~C => ~B). Construamos a ...

Uma Hora de Trânsito

Enviei este texto para os jornais locais, Diário do Minho e Correio do Minho. Nenhum dos quais se dignou, sequer, a responder o interesse (ou falta dele) pela publicação do texto. Assim sendo, aproveito para reavivar este blog, partilhando-o convosco.