sábado, 5 de julho de 2008

Projecto Gutenberg

Depois do último post em que vos falava do projecto Dicionário Aberto, hoje vou falar-vos um pouco do Projecto Gutenberg, e do Distributed Proofreaders.

O Projecto Gutenberg pretende a preservação de documentos escritos que já se encontram em domínio público, em qualquer língua. Exemplos de documentos actualmente preservados pelo Projecto Gutenberg são as obras de Shakespeare ou os Lusíadas, de Luís de Camões.

No caso português (e corrijam-me se estiver errado), um documento escrito entra no domínio público passados 70 anos da morte do autor, ou 70 anos depois da publicação da obra (o que acontecer mais tarde).

Os documentos são preservados em formatos abertos e textuais. Normalmente é priveligiado o formato textual puro, embora existam livros em HTML e, poucos em Rich Text Format (este, menos aberto). Existem também alguns documentos que são preservados oralmente, em MP3. Este tipo de documentos é essencialmente útil para invisuais

Como também vos disse no último post, o processo de transcrição é manual, já que os OCR existentes não conseguem reconhecer com qualidade texto de documentos antigos.

É nesta altura que entra o Distributed Proofreaders, onde as imagens dos livros são carregadas, juntamente com uma versão inicial do texto, obtido por OCR. O processo manual revê (e volta a rever) o texto, em várias rondas. Assim que o documento estiver pronto, é integrado no Projecto Gutenberg.

Brevemente espero escrever sobre os vários passos necessários para contribuir para qualquer um destes projectos.

Já agora, não lembra nem ao Diabo, mas o Projecto Gutenberg já alberga mais de 400 GB de documentos.

2 comentários:

alvaroiriarte disse...

Mais do que manual, o processo de transcrição é semi-automático, não?
E mais ainda com ferramentas como "Faz-me a papinha toda"

Patrícia França disse...

Depois da inscrição no Distributed Proofreaders é-nos enviado um e-mail com informação útil sobre o projecto. Útil é também, quanto a mim, o blog "http://pagina-a-pagina.blogspot.com/", referenciado no e-mail de boas-vindas que, como vem descrito no espaço de descrição, pretende ser "Sítio de apoio aos Voluntários de Língua Portuguesa do Projecto".