quinta-feira, 4 de outubro de 2007

E como o assunto hoje é língua portuguesa...

A minha pátria é a língua portuguesa - O Corpus do Português


O Corpus do Português, é um ótimo site que oferece um meio inédito de esquadrinhar a língua portuguesa. Ele funciona como um "quem é quem" do idioma. Mostra a popularidade de palavras ou de frases buscadas entre milhares de textos. Esse grande arquivo forma o corpus da língua, que representa as diversas variedades lingüísticas do português.
O corpus reúne mais de 50 mil textos, de diversas fontes, somando 45 milhões de palavras em português dos anos Trezentos (1300) aos Novecentos (1900). Há quatro registros principais: jornalístico, acadêmico, falado e de ficção.

A interface permite pesquisar palavras exatas ou frases, curingas, lemas, classes gramaticais, ou qualquer outra combinação. Proporciona também a pesquisa de palavras vizinhas com um máximo de dez palavras de cada lado (ex: todos os substantivos perto de cadeia, todos os adjetivos perto de mulher, ou todos os substantivos perto de girar).
O corpus também facilita, de pelo menos três maneiras diferentes, a comparação da freqüência e distribuição de palavras, frases e construções gramaticais através de textos:

Registro: comparações entre o falado, a ficção, o jornalístico, e o acadêmico
Dialeto: Portugal versus Brasil no século XX
Período histórico: comparação de séculos diferentes dos anos Trezentos [1300] aos Novecentos [1900]

Realizam-se com facilidade consultas de semântica no corpus. Por exemplo, a diferença de significado entre duas palavras relacionadas, pode ser determinada através da comparação e contraste das palavras vizinhas. Pode-se encontrar a freqüência e a distribuição de sinônimos de mais de 20.000 palavras e comparar esta freqüência em registros ou países diferentes, ou inclusive ao longo dos séculos. Estas listas de palavras podem ser armazenadas e usadas em futuras consultas. Pode-se, além disso, criar suas próprias listas de palavras com um parentesco semântico, e usá-las como parte da consulta.

Faça uma pequena excursão de três minutos que apresentará os aspectos principais do corpus. Um simples clique para cada consulta preencherá automaticamente o formulário de pesquisa, pesquisará 45 milhões de palavras em textos diversos, e exibirá os resultados. O Corpus é rápido, grátis, fácil de usar, e oferece características importantes não encontradas em nenhuma outra interface existente.


fonte:copy&paste do blog Inconsciente e-Coletivo de Eduardo Tetera

0 comentários:

Ocorreu um erro neste gadget
Blog Widget by LinkWithin
 
Creative Commons License
Esta obra está licenciada sob uma Licença Creative Commons.