journÉe internationale de la langue maternelle unesco
Post on 21-Jan-2016
37 Views
Preview:
DESCRIPTION
TRANSCRIPT
JOURNÉE INTERNATIONALE JOURNÉE INTERNATIONALE DE LA LANGUE DE LA LANGUE MATERNELLE MATERNELLE
UNESCOUNESCO
PARISPARIS21 février 200721 février 2007
ATELIERATELIER
Expériences récentes pour Expériences récentes pour mesurer les langues dans le mesurer les langues dans le
cyberespace:cyberespace:
un tour d’horizon un tour d’horizon et la méthode et la méthode
Funredes/Union LatineFunredes/Union Latine
Daniel PimientaDaniel Pimientapimienta@funredes.orgpimienta@funredes.org
FUNDACIÓN REDES Y DESARROLLOFUNDACIÓN REDES Y DESARROLLO
http://funredes.orghttp://funredes.org
APPROCHES EXISTANTESAPPROCHES EXISTANTES
METHODEMETHODE POURPOUR CONTRECONTRE
MOTEUR MOTEUR SIMPLESIMPLE
SIMPLESIMPLE ORDRE DE ORDRE DE GRANDEURGRANDEUR
ALIS/OCLCALIS/OCLC AMELIORABLEAMELIORABLE STATISTIQUESSTATISTIQUES
ALGORITHMEALGORITHME
MARKETINGMARKETING NON NON TRANSPARENTTRANSPARENT
(FUNREDES/(FUNREDES/
UL)UL)DOCUMENTÉDOCUMENTÉ
INDICATEURSINDICATEURSLIMITES LIMITES LANGUES & LANGUES & INDEXINDEX
APPROCHES FUTURESAPPROCHES FUTURES
METHODEMETHODE POURPOUR CONTRECONTRE
ALGO. ALGO. RECONAIS.RECONAIS.
PUISSANCEPUISSANCE
PAS LIMITEPAS LIMITEALGORITHMEALGORITHME
A LA ALEXAA LA ALEXA COUVERTURECOUVERTURE
(FUNREDES/(FUNREDES/
UL)UL)EVOLUTION EVOLUTION MOTEURSMOTEURS
METHODE METHODE FUNREDES/UNION LATINEFUNREDES/UNION LATINEHTTP://FUNREDES.ORG/LCHTTP://FUNREDES.ORG/LC
BASÉE SUR MOTEUR DE RECHERCHEBASÉE SUR MOTEUR DE RECHERCHE APPROCHE LINGUISTIQUE SERIEUSEAPPROCHE LINGUISTIQUE SERIEUSE TRAVAIL STATISTIQUE SOIGNÉTRAVAIL STATISTIQUE SOIGNÉ LA SEULE DOCUMENTÉE 100%LA SEULE DOCUMENTÉE 100% LA SEULE AVEC SUIVI RÉGULIERLA SEULE AVEC SUIVI RÉGULIER VARIETE D’INDICATEURS VARIETE D’INDICATEURS VARIETE D’ESPACE VARIETE D’ESPACE
METHODE METHODE FUNREDES/UNION LATINEFUNREDES/UNION LATINE
LIMITATION EN LANGUES LIMITATION EN LANGUES (anglais, (anglais, allemand, espagnol, français, italien, portugais, allemand, espagnol, français, italien, portugais, roumain)roumain)
DONNE RÉSULTATS RELATIFSDONNE RÉSULTATS RELATIFS MESURE L’ESPACE INDEXÉMESURE L’ESPACE INDEXÉ FUTUR INCERTAINFUTUR INCERTAIN
METHODOLOGIEMETHODOLOGIEFUNREDES/UNION LATINEFUNREDES/UNION LATINE
Définition 57 concepts équivalents Définition 57 concepts équivalents sémantiquement ===> 1600 termessémantiquement ===> 1600 termes
Mesure comparative fréquence avec moteurs de Mesure comparative fréquence avec moteurs de recherche (automatisé para programme)recherche (automatisé para programme)
Méthode statistique (distribution, moyenne, Méthode statistique (distribution, moyenne, variance, loi de Fischer, intervalle de confiance)variance, loi de Fischer, intervalle de confiance)
Résultats % par rapport anglaisRésultats % par rapport anglais
Evaluation anglais par recoupement et résultats Evaluation anglais par recoupement et résultats absolus autres langues.absolus autres langues.
CONCEPTS: CONCEPTS: CRITÈRES LINGUISTIQUESCRITÈRES LINGUISTIQUES
Neutralité culturelle Neutralité culturelle Homographie trans-linguistiqueHomographie trans-linguistiqueHomographie trans linguistique avec un des éléments Homographie trans linguistique avec un des éléments
d'un mot composéd'un mot composéHomographie trans-linguistique par empruntHomographie trans-linguistique par empruntHomographie avec une abréviationHomographie avec une abréviationHomographie avec un nom propre fréquentHomographie avec un nom propre fréquentPseudo-homographie trans-linguistiquePseudo-homographie trans-linguistiqueSignifications non équivalentesSignifications non équivalentesMorpho-syntaxe non équivalente : nom, verbeMorpho-syntaxe non équivalente : nom, verbeMorpho-syntaxe non équivalente : adjectifs et nomsMorpho-syntaxe non équivalente : adjectifs et nomsPluricentrisme lexique et sémantiquePluricentrisme lexique et sémantiquePluricentrisme orthographiquePluricentrisme orthographiqueFormes aggrégées (allemand)Formes aggrégées (allemand)
Neutralidad culturalNeutralidad cultural
Propiedad de una palabra en relación con su Propiedad de una palabra en relación con su frecuencia de uso en la lengua en función de la frecuencia de uso en la lengua en función de la cultura respectiva.cultura respectiva.
Las palabras francesasLas palabras francesas vinvin,, parfumparfum, , gastronomiegastronomie y las palabras del lenguaje diplomático no son y las palabras del lenguaje diplomático no son neutras culturalmente, en relación con el francés.neutras culturalmente, en relación con el francés.
Para obtener una muestra con el coeficiente de Para obtener una muestra con el coeficiente de variación menor posible, se dejaron de lado las variación menor posible, se dejaron de lado las palabras no neutras culturalmente.palabras no neutras culturalmente.
Homografía interlingüísticaHomografía interlingüística
La grafía de una palabra en un idioma es idéntica a la de otra La grafía de una palabra en un idioma es idéntica a la de otra palabra en otro idioma, incluido el caso de palabra en otro idioma, incluido el caso de faux amisfaux amis (significación diferente). Puede haber homografías con o (significación diferente). Puede haber homografías con o sin diacríticos.sin diacríticos.
Ejemplo de grafía idéntica (con el mismo sentido): casa en Ejemplo de grafía idéntica (con el mismo sentido): casa en castellano y portugués. castellano y portugués.
Ejemplos de Ejemplos de faux amisfaux amis: red en castellano y : red en castellano y redred en inglés en inglés (rojo); (rojo); hier hier en francés (ayer) y en francés (ayer) y hierhier en allemán (aquí). en allemán (aquí).
Rechazar las palabras homógrafas (con o sin diacríticos).Se Rechazar las palabras homógrafas (con o sin diacríticos).Se han tenido en cuenta, para rechazarlas, las homografías han tenido en cuenta, para rechazarlas, las homografías entre los idiomas del estudio o con un idioma muy entre los idiomas del estudio o con un idioma muy presente en Internet, como el alemán. Para evitar el riesgo presente en Internet, como el alemán. Para evitar el riesgo estadístico de homografías con otros idiomas, se descartan estadístico de homografías con otros idiomas, se descartan por principio las palabras de menos de cuatros letras.por principio las palabras de menos de cuatros letras.
Homografía interlingüística por Homografía interlingüística por préstamopréstamo
Cuando una palabra de un idioma es aceptada tal Cuando una palabra de un idioma es aceptada tal cual en otro.cual en otro.
Anglicismos comme Anglicismos comme businessbusiness,, s sandwichandwich o o softwaresoftware. .
El galicismo, El galicismo, deja vu deja vu en inglés, castellano, etc. en inglés, castellano, etc. (homógrafo de la expresión francesa sin (homógrafo de la expresión francesa sin diacríticos).diacríticos).
Excluir sistemáticamente o deducir (mardi-gras)Excluir sistemáticamente o deducir (mardi-gras)
Homografía con una abreviaciónHomografía con una abreviación
SeptSept, , siete siete en francés, homógrafo de en francés, homógrafo de las abreviaciones de las abreviaciones de septiembreseptiembre en en varios idiomas, sobre todo envarios idiomas, sobre todo en inglés.inglés.
Evitar estas palabras.Evitar estas palabras.
Estamos relativamente protegidos por Estamos relativamente protegidos por la consigna de evitar palabras de la consigna de evitar palabras de menos de cuatros letras.menos de cuatros letras.
Homografía con un nombre Homografía con un nombre propio frecuentepropio frecuente
WindowsWindows es es ventanaventana en inglés.... en inglés.... pero es asimismo el nombre de un pero es asimismo el nombre de un programa muy citado en la Internet.programa muy citado en la Internet.
Evitar estas palabras.Evitar estas palabras.
Pseudohomografía Pseudohomografía interlingüísticainterlingüística
La escritura de una palabra con une error de La escritura de una palabra con une error de ortografía frecuente en un idioma ortografía frecuente en un idioma corresponde a otra en otro idioma.corresponde a otra en otro idioma.
AmbasadorAmbasador en rumano puede confundirse en rumano puede confundirse con con ambas(s)adorambas(s)ador en inglés.en inglés.
Se rechazan estas palabras solamente si Se rechazan estas palabras solamente si la lengua con que se confunde es el inglés.la lengua con que se confunde es el inglés.
Significados no equivalentesSignificados no equivalentes
PrixPrix en francés equivale en su en francés equivale en su significado a significado a premiopremio y a y a precioprecio..
Evitar estas palabras, salvo si fuera Evitar estas palabras, salvo si fuera posible incluir todos los significantes posible incluir todos los significantes que completarían el sentido en las que completarían el sentido en las lenguas que lo necesiten.lenguas que lo necesiten.
Morfosintaxis no equivalente: Morfosintaxis no equivalente: sustantivo, verbosustantivo, verbo
El inglés es diferente morfosintácticamente de los demás El inglés es diferente morfosintácticamente de los demás idiomas estudiados, suele tener una misma forma como idiomas estudiados, suele tener una misma forma como sustantivo y variante verbal, ésta última equivalente a su sustantivo y variante verbal, ésta última equivalente a su vez de muchas formas conjugadas en los demás idiomas.vez de muchas formas conjugadas en los demás idiomas.
LoveLove en inglés es el sustantivo que significa en inglés es el sustantivo que significa amoramor y el verbo y el verbo amaramar: en el infinitivo (cuando sigue a : en el infinitivo (cuando sigue a toto), en el presente ), en el presente del indicativo (del indicativo (amo, amas, ama, amamos, amáis, amo, amas, ama, amamos, amáis, amanaman), etc.), etc.
Evitar estas palabras.Evitar estas palabras.
Esta característica del inglés nos lleva a excluir los verbos.Esta característica del inglés nos lleva a excluir los verbos.
Morfosintaxis no equivalente: Morfosintaxis no equivalente: adjetivos y sustantivosadjetivos y sustantivos
Adjetivos, invariables en inglés, varían en género y en número Adjetivos, invariables en inglés, varían en género y en número en los demás idiomas estudiados. en los demás idiomas estudiados.
Los sustantivos, que en general sólo varían en número en los Los sustantivos, que en general sólo varían en número en los demás idiomas, varían en rumano también según el caso demás idiomas, varían en rumano también según el caso (nominativo, genitivo, etc.) y la diferencia determinado / no (nominativo, genitivo, etc.) y la diferencia determinado / no determinado.determinado.
El adjetivo inglés El adjetivo inglés yellowyellow corresponde a corresponde a amarilloamarillo / / amarillaamarilla / / amarillosamarillos / / amarillasamarillas. El sustantivo inglés . El sustantivo inglés instability / instability / instabilitiesinstabilities a las variantes rumanas siguientes:a las variantes rumanas siguientes: instabilitateinstabilitate / / instabilitateainstabilitatea / / instabilităţiiinstabilităţii / / instabilităţiinstabilităţi / / instabilităţileinstabilităţile / / instabilităţilorinstabilităţilor. .
Incluir las variantes de género, número y caso en los Incluir las variantes de género, número y caso en los idiomas en la necesidad de equivalencia lo exige.idiomas en la necesidad de equivalencia lo exige.
Pluricentrismo léxico y Pluricentrismo léxico y semánticosemántico
Cuando un idioma tiene más de un centro Cuando un idioma tiene más de un centro normativo léxico-semántico.normativo léxico-semántico.
Según el país hispanohablante, se dice Según el país hispanohablante, se dice nafta nafta o o gasolinagasolina. .
Americano,Americano, en muchos países de América Latina, en muchos países de América Latina, no tiene el mismo sentido que en otros o en no tiene el mismo sentido que en otros o en España.España.
Incluir las variantes sinonímicas nacionales o Incluir las variantes sinonímicas nacionales o regionales cuando corresponda.regionales cuando corresponda.
Pluricentrismo ortográficoPluricentrismo ortográfico
Cuando un idioma tiene más de un centro Cuando un idioma tiene más de un centro normativo ortográfico.normativo ortográfico.
Casos del inglés y del portugués: ortografía Casos del inglés y del portugués: ortografía diferente en EE. UU. y en el Reino Unido diferente en EE. UU. y en el Reino Unido ((theatertheater y y theatre)theatre), en Portugal y en , en Portugal y en Brasil (Brasil (electricidade electricidade y y eletricidadeeletricidade).).
Incluir las variantes ortográficas Incluir las variantes ortográficas nacionales o regionales cuando nacionales o regionales cuando corresponda.corresponda.
Formas agregadas Formas agregadas
Las formas agregadas son comunes en Las formas agregadas son comunes en alemán y el motor no las contabiliza.alemán y el motor no las contabiliza.
Corregir globalmente las cifras en Corregir globalmente las cifras en función de un porcentage de función de un porcentage de frecuencia.frecuencia.
CONCEPTOS: EJEMPLOSCONCEPTOS: EJEMPLOS
INGLÉS: cheese, cheeses INGLÉS: cheese, cheeses ESPAÑOL: queso, quesos ESPAÑOL: queso, quesos FRANCÉS: fromage, fromagesFRANCÉS: fromage, fromagesITALIANO: formaggi, formaggio ITALIANO: formaggi, formaggio PORTUGUÉS: queijo, queijos PORTUGUÉS: queijo, queijos RUMANO: branza, branze, branzei, branzele, RUMANO: branza, branze, branzei, branzele,
branzelor, branzeturi, branzeturile, branzeturilorbranzelor, branzeturi, branzeturile, branzeturilorbrânza, brânze, brânzei, brânzele, brânzelor, brânza, brânze, brânzei, brânzele, brânzelor, brânzeturi, brânzeturile, brânzeturilor, brânzã brânzeturi, brânzeturile, brânzeturilor, brânzã
ALEMÁN: kaese, kaesen, kase, kasen, käse, käsen ALEMÁN: kaese, kaesen, kase, kasen, käse, käsen
CONCEPTOS: EJEMPLOSCONCEPTOS: EJEMPLOS
INGLÉS: yellowINGLÉS: yellowESPAÑOL: amarilla,amarillas amarillo, ESPAÑOL: amarilla,amarillas amarillo,
amarillosamarillosFRANCÉS: jaune, jaunesFRANCÉS: jaune, jaunesITALIANO: gialla, gialle, gialli, gialloITALIANO: gialla, gialle, gialli, gialloPORTUGUÉS: Amarela, amarelas, amarelo, PORTUGUÉS: Amarela, amarelas, amarelo,
amarelosamarelosRUMANO: Galben, galbena, galbene, RUMANO: Galben, galbena, galbene,
galbeni, galbenãgalbeni, galbenãALEMÁN: gelb, gelbe, gelbem, gelben, ALEMÁN: gelb, gelbe, gelbem, gelben,
gelber, gelbes gelber, gelbes
SEARCH ENGINESEARCH ENGINE
All are tested: All are tested: Altavista, Excite, Fastsearch (Alltheweb), Altavista, Excite, Fastsearch (Alltheweb),
Google, Hotbot, Infoseek, iWon, Lycos, Google, Hotbot, Infoseek, iWon, Lycos, Northernlight, Yahoo et WebtopNorthernlight, Yahoo et Webtop..
The best suited is selected: The best suited is selected: - Counting reliabilityCounting reliability- Handling of diacritics Handling of diacritics - coherence of resultscoherence of results- Size of IndexSize of Index- Homogeneity vs. LanguageHomogeneity vs. Language
SEARCH ENGINESEARCH ENGINE
Almost always a headache…Almost always a headache…
Takes time to validate and Takes time to validate and understand tricks…understand tricks…
COMPUTINGCOMPUTING
Completely automatized by PHP Completely automatized by PHP program interfacing the web.program interfacing the web.
Data base of results for comparation Data base of results for comparation and historical storage.and historical storage.
STATISTICAL METHODSTATISTICAL METHOD
- Normal distributionNormal distribution- Covariance analysis for sound resultsCovariance analysis for sound results- 90% and 99% confidence interval90% and 99% confidence interval
Computed from Student T-DistributionComputed from Student T-Distribution
PRODUCTSPRODUCTS
RAW PORCENTAGE OF LANGUAGE RAW PORCENTAGE OF LANGUAGE COMPARED TO ENGLISHCOMPARED TO ENGLISH
VARIANCE COEFFICIENTVARIANCE COEFFICIENT
CONFIDENCE INTERVALCONFIDENCE INTERVAL
EVALUATION OF ENGLISH EVALUATION OF ENGLISH PORCENTAGEPORCENTAGE
- The least scientifical part- The least scientifical part
- Made by crosschecking with the Made by crosschecking with the porcentrage of reamaining languages porcentrage of reamaining languages and modelling and modelling
- More and more difficult to do…More and more difficult to do…
DERIVED RESULTS AND DERIVED RESULTS AND INDICATORSINDICATORS
ABSOLUTE PERCENT
- WEIGHTED PRESENCE OF LANGUAGE (RELATIVE TO NUMBER OF SPEAKERS)
-PRODUCTIVITY (RELATIVE TO NUMBERS OF INTERNAUTS)
- EVOLUTIONS
1998-20051998-2005EVOLUTION % WEB PAGESEVOLUTION % WEB PAGESBY LANGUAGE vs. ENGLISHBY LANGUAGE vs. ENGLISH
Evolución de las lenguas latinas con respecto al Inglés
0.00%
2.00%
4.00%
6.00%
8.00%
10.00%
12.00%
14.00%
16.00%
18.00%
Ago
-98
Dic
-98
Abr
-99
Ago
-99
Dic
-99
Abr
-00
Ago
-00
Dic
-00
Abr
-01
Ago
-01
Dic
-01
Abr
-02
Ago
-02
Dic
-02
Abr
-03
Ago
-03
Dic
-03
Abr
-04
Ago
-04
Dic
-04
Abr
-05
Español
Francés
Italiano
Portugues
Rumano
Aleman
Español 3.37% 8.41% 9.46% 10.95% 11.24% 11.36% 11.60% 10.83% 10.30% 10.19% 10.23%
Francés 3.75% 7.33% 7.89% 8.86% 9.13% 9.14% 9.60% 8.82% 10.18% 10.64% 11.00%
Italiano 2.00% 4.60% 4.93% 5.88% 6.15% 6.15% 6.51% 5.28% 6.09% 6.15% 6.77%
Portugues 1.09% 3.95% 4.44% 5.40% 5.57% 5.61% 5.62% 4.55% 4.36% 4.02% 4.15%
Rumano 0.20% 0.37% 0.33% 0.32% 0.35% 0.36% 0.33% 0.23% 0.41% 0.31% 0.37%
Aleman 5% 11.00% 11.43% 13.42% 13.74% 14.08% 14.41% 13.87% 15.37% 15.42%
Sep-98 Ago-00 Ene-01 Jun-01 Ago-01 Oct-01 Feb-02 Feb-03 Feb-04 May-04 Mar-05
INDICATORS 2005INDICATORS 2005
INGLINGL ESP.ESP. FRA.FRA. ITA.ITA. POR.POR. RUM..RUM.. ALEM.ALEM. RES.RES. TOT.TOT.
SPEAKERS (millons)SPEAKERS (millons) 630630 375375 130130 6060 190190 3030 120120 53705370 60006000
SPEAKERS %SPEAKERS % 10,5%10,5% 6,3%6,3% 2,2%2,2% 1%1% 3,2%3,2% 0,5%0,5% 2%2% 89,5%89,5% 100%100%
INTERNAUTS (MILLONS)INTERNAUTS (MILLONS) 300300 8080 4949 4242 3838 44 7171 516516 11001100
INTERNAUTS vs. SPEAKERSINTERNAUTS vs. SPEAKERS 47,647,6 21,3%21,3% 37,7%37,7% 70,0%70,0% 20,0%20,0% 14,7%14,7% 59,2%59,2% 9,6%9,6% 18.3%18.3%
INTERNAUTAS vs. POPULATIONINTERNAUTAS vs. POPULATION 5.0%5.0% 1,3%1,3% 0,8%0,8% 0.7%0.7% 0,6%0,6% 0,1%0,1% 1,2%1,2% 8,6%8,6% 18.3%18.3%
% INTERNAUTS PER LANGUAGE% INTERNAUTS PER LANGUAGE 27%27% 7%7% 4%4% 4%4% 3%3% 0,4%0,4% 7%7% 25%25% 100%100%
WEB PAGES %WEB PAGES % 45%45% 4,6%4,6% 5%5% 3,0%3,0% 1,9%1,9% 0,2%0,2% 6,9%6,9% 33,4%33,4% 100%100%
WEBWEB PRODUCTIVITYPRODUCTIVITY 1.571.57 0,660,66 1,141,14 0,810,81 0,550,55 0,700,70 1,061,06 1,321,32 11
WEB PAGE vs. SPEAKERSWEB PAGE vs. SPEAKERS 4.294.29 0,740,74 2,282,28 3,053,05 0,590,59 0,330,33 3,473,47 0.370.37
(Sources: Global Reach y Funredes/Union Latina)
DERIVED RESULTS AND DERIVED RESULTS AND INDICATORSINDICATORS
GOOGLE ALLOW HIGH FLEXIBILITY OF SEARCHES:
- BY GENERIC DOMAIN- BY TOP LEVEL DOMAIN- BY COUNTRY- BY LANGUAGE
This allow, with our methodology, to produce interesting indicators such as productivity per language per country…
OTHER ACTIVITIESOTHER ACTIVITIESOF FUNREDES OBSERVATORYOF FUNREDES OBSERVATORY
- Measuring languages in other Internet Measuring languages in other Internet spaces such as: newsgroups, spaces such as: newsgroups, blogospehere, wikipediablogospehere, wikipedia
- ““Measuring” cultures via citation index of Measuring” cultures via citation index of representative personnages and weighting representative personnages and weighting evolutions.evolutions.
- Automatic translation in electronic Automatic translation in electronic conferences.conferences.
AND BY THE WAY…AND BY THE WAY…
ENGLISH WEB PAGES ARE ENGLISH WEB PAGES ARE
BELOW 50% SINCE 2002….BELOW 50% SINCE 2002….
CAN YOU BELIEVE IT?CAN YOU BELIEVE IT?
Go check: http://FUNREDES.ORG/LCGo check: http://FUNREDES.ORG/LC
top related