El presente trabajo se titula «La expresión oral en español lengua extranjera: interlengua y análisis de errores basado en corpus», y pretende contribuir al conocimiento del habla de diferentes grupos de aprendices extranjeros. Para ello se ha analizado su lengua en desarrollo (interlengua), atendiendo a las categorías empleadas y los errores cometidos durante una entrevista. Las grabaciones fueron transcritas y conforman un banco de datos (corpus) de la producción oral de 40 alumnos cuya lengua materna es principalmente portugués, italiano, francés, inglés, neerlandés, alemán, polaco, chino y japonés.
Cuando iniciamos el proyecto, planteamos cuestiones de investigación que quizá eran demasiado ambiciosas: ¿Cuáles son los errores más frecuentes del proceso de aprendizaje? ¿Cuál es el grado de influencia de la lengua materna en la adquisición? Habiendo constatado la influencia del formato de obtención de datos en los resultados y la dificultad de diagnosticar el error, reformulamos las preguntas del siguiente modo:¿En qué medida ciertos contenidos del aprendizaje del español causan dificultades a todos los alumnos en la expresión oral? ¿Por qué en el habla ciertos grupos de alumnos presentan más problemas que otros en determinados puntos? ¿Cuáles son esos contenidos y en qué grado? A lo largo de este trabajo hemos analizado la producción oral de cuarenta estudiantes de español, en cuanto a las estructuras o categorías usadas y los errores cometidos.
Los resultados del análisis formal de la producción en nuestro corpus son los siguientes: Respecto a la producción de unidades léxicas, apenas hay diferencia entre A2 y B1, pero es más baja en chinos, alemanes y japoneses, y más alta en lusófonos, franceses e italianos, lo cual se debería a factores interlingüísticos y socioculturales. En grupos específicos de L1 hay una producción más pobre de ciertas categorías: artículos (polacos, chinos y japoneses), relativos y preposiciones (japoneses) y conjunciones y marcadores discursivos (chinos). Esto se puede asociar a fenómenos de evitación o con dificultades en dichas categorías (por factores interlingüísticos). Entre los nativos, el uso de categorías gramaticales es más alto que el de las categorías léxicas; y entre los no nativos, sucede a la inversa, aunque los italianos, neerlandeses, franceses y lusófonos reflejan valores próximos a los nativos. El estudio de la riqueza léxica muestra, proporcionalmente, valores más altos en el grupo de nativos que en el de no nativos; y también es mayor en el grupo de B1 que en A2, aunque entre estos grupos las diferencias son apenas perceptibles. Los grupos con vocabularios más amplios (mayor número de categorías léxicas distintas o types) fueron el lusófono, el italiano y el francés; respecto a la variación en el vocabulario (la proporción de types en relación al total de tokens de las categorías léxicas), los italianos y lusófonos tienen valores próximos a los nativos.
Por su parte, el análisis de errores de nuestro corpus reveló las siguientes dificultades: En estos niveles bajos de competencia, el progreso de A2 a B1 muestra un descenso general del número de errores (de una media de 191,30 a 135,40); con todo, este hecho es solo un reflejo parcial del proceso hacia la adquisición, ya que esta disminución puede deberse a la evitación de estructuras que resultan difíciles. Los errores más abundantes afectan a la gramática (48,61%) y el léxico (29,37%) –frente al 14,19% de la pronunciación, y el 3,58% de la pragmática o el discurso)–; aproximadamente, un 4,45% son ambiguos, y el 49,21% se deben a interferencia. Las incorrecciones del nivel léxico se concentran en los aspectos formales más que en los semánticos (que son más resistentes a la adquisición). En A2 abundan las deformaciones y los extranjerismos (de los que existe gran transferencia entre nativos de lenguas románicas, sobre todo lusófonos); y aunque en B1 disminuye su frecuencia, persisten otros errores por relación semántica y asignación de género. Los errores gramaticales más frecuentes y generalizados afectan al artículo, la estructura de la oración, las concordancias y los tiempos de pasado; además, en B1 persisten los que se registran en pronombres, preposiciones y la subordinación. La naturaleza de la oralidad explicaría la alta cifra de incorrecciones por omisión y orden de palabras, las discordancias y el abuso del presente sobre otros tiempos. En la pronunciación la interferencia suele persistir fuertemente en B1, y quizá es donde más influye la L1 en las tendencias de error (si bien algunos ocurren en todos los grupos, como la articulación de /r/): los nativos de lenguas germánicas cometen más errores por reducción vocálica; los hablantes de lenguas con distinto patrón acentual (como franceses o polacos), registran más errores de acento; y en general, cada grupo tiende a transferir rasgos (ej. chinos y japoneses no distinguen /ɾ/ y /l/). Las desviaciones pragmático-discursivas –pese a que su evaluación es complicada por el formato de obtención de datos– revelan gran variación individual no siempre La expresión oral en español lengua extranjera: interlengua y análisis de errores basado en corpus relacionable con el nivel, quizá debido a que dependen de las propias habilidades del estudiante en su L1; con todo, los alumnos chinos revelaron relaciones más pobres de cohesión y más errores de comprensión del mensaje.
Entre las limitaciones de nuestro estudio, se pueden destacar las siguientes: Al basarse exclusivamente en datos orales, el diagnóstico de ciertas desviaciones no es inmediato respecto a si se deben a la competencia o la actuación (p. ej., las discordancias), o respecto al tipo de dificultad existente o el nivel en que asignar el error (ej. errores formales que pueden ser fonéticos, extranjerismos entre lusófonos). Nuestro corpus consta únicamente de entrevistas con alumnos de nivel intermedio-bajo, y no se pueden extraer conclusiones acerca de su capacidad para alcanzar una competencia casi bilingüe (véase Bustos y Sánchez, 2006). Respecto a las mayores dificultades de ciertos grupos de hablantes por L1, tampoco se pueden generalizar los resultados dado el reducido número de alumnos participantes en cada grupo, aunque sí se vislumbran tendencias particulares. No podemos relacionar los resultados con el debate clásico acerca del relativismo o el universalismo lingüístico (Whorf o Sapir frente a Chomsky o Lenneberg) –esto es, en qué medida la L1 influye en el aprendizaje, sobre todo en el nivel cognitivo–.
Se pueden proyectar las siguientes tareas futuras de investigación: Ampliar el corpus con más participantes de las lenguas maternas abordadas en el estudio (tanto de estos niveles como de otros superiores) y con informantes nativos de más lenguas de otras familias lingüísticas (p. ej. árabe, ruso, noruego o sueco), así como con estudios longitudinales de los mismos aprendices. Confirmar con pruebas experimentales complementarias (ej., escritas) el tipo o el nivel lingüístico de algunos fenómenos de ciertos alumnos (ej. ciertos errores de forma), así como si se deben a la competencia o la actuación (ej. las discordancias). Validar la taxonomía de errores entre dos anotadores de manera independiente y con un conjunto reducido del corpus (una muestra aleatoria del 5% de los errores). El grado de coincidencia entre analistas y la consistencia del etiquetado se estima mediante el índice Kappa (κ) de Cohen (Herrera, Martínez y Amengual, 2011: 194). Observar la fluidez oral de los alumnos (número de pausas, titubeos, reinicios y repeticiones, etc.), atendiendo a su lengua materna y a su nivel de competencia. Estudiar (quizá incluso con etiquetas específicas) el porcentaje de errores que impiden la comunicación o que, sin ser agramaticales, resultan poco naturales, como abordan otros trabajos (Izumi et al., 2005; Bartley y Díaz-Negrillo, 2010). Si bien el alcance de este proyecto es reducido y los resultados no son todos generalizables, sí podemos destacar las principales aportaciones de esta investigación: Analizar la producción y los errores de habla en español lengua extranjera con una metodología rigurosa que puede ser validada y extendida a otro conjunto de datos. Explorar dificultades y tendencias desconocidas de error en la oralidad, y plantear nuevas incógnitas acerca de la adquisición del español, y de las lenguas en general. Reunir un banco de datos aprovechable no solamente por la comunidad investigadora en la adquisición de lenguas (ya sea para el estudio de la actuación, de fenómenos lingüísticos o la producción de ciertas categorías), sino también por los profesionales de la enseñanza del español (quienes cuentan con ejemplos reales de error que pueden emplear con fines didácticos).