Eu acredito que as caracteristicas de uma etnia são reflectidas na sua lingua, na medida em que esta reflecte a etnia e as mudanças que a etnia sofreu ao longo do tempo.
Por exemplo, uma palavra de uso comum por uma população, normalmente adquire uma versão curta na lingua dessa população.
Eu proponho que se encontre as palavras com menor numero de silabas em todas as linguas, digamos, uma lista com palavras de até 3 sílabas de todas as linguas, com o significado correspondente.
A cada palavra de até 3 sílabas atribui-se o significado/significados de uso corrente e comum.
Depois removia-se da tabela todas as palavras em todas as linguas que tivessem o mesmo significado/significados de uso corrente e comum, ficando apenas em cada línguas as que identificam a lingua e portanto a etnia.
Isto poderia ser feito de modo automatico, com um dicionário multilingue.
O Plano:
1) pegar numa data de dicionários (lingua->inglês) e para cada ficheiro criar uma tabela palavra - significado
2) eliminar simultaneamente todas as linhas de palavra em todos os ficheiros que tivessem ocorrencia de significado similar
Claro que assim a lingua inglesa serviria de meio de análise, e não poderia ser analisada.
Mas isso pouco importa, visto que a lingua inglesa é tão usada e deturpada hoje em dia, em uso comum por várias etnias que talvez nao fosse de interesse analisá-la. Isto tambem se aplica às línguas mais faladas, mas em menor escala e gravidade.
3) por análise extensiva e especializada poder-se ia criar uma atributo denominado "conotação intraduzivel" que tornaria a palavra imediatemente "identificadora da lingua".
Poder-se-ia limitar este atributo a cerca de 20 palavras por lingua (valor meramente arbitário e deverá ser alterado para a ordem de grandeza obtida depois do processo automatizável referido nos passos 1,2 e 3)