Connectez-vous S'inscrire

Google Ngrams des centaines de milliards de mots à portée de clic


Avec sa nouvelle application, Google Ngrams, le géant d’internet offre la possibilité aux chercheurs mais aussi au grand public, de pouvoir étudier des centaines de milliards de mots utilisés dans des livres depuis des siècles. Le site ouvert ce vendredi liste tous les termes employés dans 5 millions de livres publiés depuis 1800.



Comment ça marche ?? Il suffit de rentrer un ou plusieurs mots et de choisir la langue qui vous intéresse. Vous avez le choix entre l’anglais, le français, le chinois, le russe, l’espagnol ou l’allemand. Vous notez la période que vous avez choisie et Google Ngrams se met au travail.

«Pour lire seulement les textes de l'année 2000 [...], sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1.000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune!» rapporte Jean Veronis, qui tient un blog sur les technologies du langage.



Pour un public averti

Si Google Ngrams risque d’être passionnant pour le grand public, les scientifiques ne sont pas convaincus de son utilité. «L'arrivée de cette base de données est une étape importante. Mais cela sera insuffisant. Nous, linguistes, avons besoin de savoir de quel type d'ouvrage il s'agit. Et surtout du contexte. Pour l'anglais, il faudrait accéder à des groupes de neuf mots pour faire de la phraséologie ou lever les ambiguïtés de certains termes. Pour le français, il faudrait des ensembles d'au moins treize mots.» déclare une linguiste à l'Université de Birmingham .


Des droits d’auteurs version Google? 

Rappelons-nous qu’en 2003, lorsque Google a lancé son projet de numériser tous les livres publiés à ce jour dans le monde, tout le monde a crié au scandale. Google Ngrams n’est que l’un des prolongements logiques de ce travail titanesque


Patrimoine de l’Humanité 2.0

Parions que d’autres applications verront le jour dans les années qui viennent. Et pourquoi pas la reconnaissance automatique des images, ainsi toutes les peintures, tous les dessins, toutes les photos, toutes les vidéos, du patrimoine de  l’Humanité seraient identifiés et  numérisés dans les  bases de données de Google  sans écrire aucun mot clef…c’est déjà offert depuis des années par  Google image . Après les polémiques sur  les droits d’auteurs des Google Books ,  il faudra penser aussi aux droits à l’image…

Dominique Desaunay
17/12/2010
Lu 1616 fois