Ads 468x60px

sábado, 12 de novembro de 2011

Apache Tika chega à versão 1.0

A versão 1.0 do Apache Tika, um detector e extrator de conteúdo de metadados e texto estruturado, foi lançada. O projeto começou como um subprojeto do Apache Lucene em 2007 e se tornou um projeto de alta prioridade em maio do ano passado.

O Apache Tika é um conjnto de bibliotecas Java e usa um grande número de interpretadores que permitem ao aplicativo extrair metadados e texto estruturado de documentos HTML, XML, OLE2 e OOXML do Microsoft Office, OpenDocument Format, PDF, ePub, RTF, arquivos compactados e empacotados, texto genérico em diferentes codificações, caixas de email do Outlook e mbox, e textos associados com arquivos de imagem, áudio e vídeo. Isso o torna uma ferramenta valiosa para motores de busca e outros aplicativos que precisam gerenciar essa variedade de arquivos.
O Tika também possuia uma interface gráfica (graphical user interface, ou GUI) para explorar o conteúdo dos arquivos interativamente. A versão 1.0 atualizada remove todos os métodos de API usados nas versões anteriores e abandona o suporte ao Java 1.4 retrotraduzido. Também recebeu atenção para a integração OSGi e o sistema é capaz de reconhecer e usar automaticamente serviços dos Interpretadores e Detectores disponíveis no sistema.
As notas de lançamento listam de forma detalhada todas as mudanças da versão 1.0. O código-fonte do Apache Tika está disponível para download sob a licença Apache 2.0. Um guia introdutório mostra como usar o Tika juntamente com os produtos Maven e Ant e como uma ferramenta de linha de comando.
Fonte: h-online, em inglês.

0 comentários: