Jun 12, 2010

(Portuguese) A originalidade das palavras: uma análise especulativa. Parte 1

Encontrei este texto escrito há algum tempo, e resolvi testar a hipótese agora:

Eu acredito que as caracteristicas de uma etnia são reflectidas na sua lingua, na medida em que esta reflecte a etnia e as mudanças que a etnia sofreu ao longo do tempo.

Por exemplo, uma palavra de uso comum por uma população, normalmente adquire uma versão curta na lingua dessa população.

Eu proponho que se encontre as palavras com menor numero de silabas em todas as linguas, digamos, uma lista com palavras de até 3 sílabas de todas as linguas, com o significado correspondente.

A cada palavra de até 3 sílabas atribui-se o significado/significados de uso corrente e comum.

Depois removia-se da tabela todas as palavras em todas as linguas que tivessem o mesmo significado/significados de uso corrente e comum, ficando apenas em cada línguas as que identificam a lingua e portanto a etnia.

Isto poderia ser feito de modo automatico, com um dicionário multilingue.

O Plano:

1) pegar numa data de dicionários (lingua->inglês) e para cada ficheiro criar uma tabela palavra - significado

2) eliminar simultaneamente todas as linhas de palavra em todos os ficheiros que tivessem ocorrencia de significado similar

Claro que assim a lingua inglesa serviria de meio de análise, e não poderia ser analisada.

Mas isso pouco importa, visto que a lingua inglesa é tão usada e deturpada hoje em dia, em uso comum por várias etnias que talvez nao fosse de interesse analisá-la. Isto tambem se aplica às línguas mais faladas, mas em menor escala e gravidade.

3) por análise extensiva e especializada poder-se ia criar uma atributo denominado "conotação intraduzivel" que tornaria a palavra imediatemente "identificadora da lingua".

Poder-se-ia limitar este atributo a cerca de 20 palavras por lingua (valor meramente arbitário e deverá ser alterado para a ordem de grandeza obtida depois do processo automatizável referido nos passos 1,2 e 3)



Segundo o modelo descrito acima, vamos precisar de dicionários do género:
  • lingua A -> inglês
  • lingua B - > inglês
  • lingua C -> inglês

Em que o inglês é tratado como língua de analise.

Em seguida o que se faz é começar a varrer os significados das palavras.

A ideia é, para uma dada palavra Ap com significado IngAp no dicionário A->Ing encontrar todas as palavras com o mesmo ou similar significado em todos os dicionários.

Caso haja algum duplicado, simplesmente apagar todas as ocorrências das palavras nesses dicionários. O objectivo é encontrar palavras cujo significado seja único em todas as línguas.

Definir similaridade:

Hipotese: A similaridade de palavras em duas línguas diferentes é definida pela semelhança entre os seus significados.
  • Seja Ap uma palavra no dicionario A->Ing com significado IngAp

  • Seja Bp uma palavra no dicionário B->Ing com significado IngBp

Pergunta: Quando é que as duas palavras são iguais, segundo a nossa hipotese?

Resposta: Quando a lista dos significados em inglês é igual. Ou seja, são 100% similares.

E caso não sejam totalmente iguais?
Vamos imaginar que Ap é uma palavra cuja tradução IngAp é água, ar ou terra

Ou seja, Ap é uma palavra numa dada lingua que quer dizer água,ar ou terra quando traduzida para inglês.

Bp é uma palavra cuja tradução IngBp é água ou fogo.

Qual é a similaridade entre Ap e Bp ?

IngAp partilha 1 palavra em 3 com IngBp : água

IngBp partilha 1 palavra em 2 com IngAp : água

IngAp é 1/3 similar a IngBp e IngBp é 1/2 similar a IngAp

Se assumirmos estas fracções como probabilidades de uma palavra ser igual à outra, então a probabilidade de Ap ser igual a Bp é 1/3 * 1/2 ou 1/6 .

A similaridade entre Ap e Bp é de cerca de 17%

A similaridade está então definida como sendo a probabilidade das palavras serem iguais, o que corresponde à multiplicação das fracções de significados partilhados entre as palavras.

Podemos então criar um programa que percorre dicionários e encontra, para cada palavra em cada dicionário, todas as palavras que estão abaixo de um patamar de similaridade. Ou seja todas as palavras que são únicas e características a uma dada lingua.

Passos experimentais:

1) Fazer download a dicionários;

2) Programar um algoritmo de acordo com os príncipios citados e corrê-lo sobre os dicionários.

Optou-se por fazer download dos dicionários lingua->inglês do projecto Universal Dictionary com um formato padrão. http://www.dicts.info/ud.php

Em seguida, programou-se a aplicação e fez-se correr o algoritmo.

Nesta simulação, vamos apresentar meramente o resultado da comparação entre os dicionários correspondentes ás linguas latinas, já que o algoritmo é algo moroso:

Escolhemos os dicionários de:
Espanhol, Francês, Italiano, Português, Romeno -> inglês

No comments:

Post a Comment