Potenzialità e limiti dell’uso dei corpora linguistici per la didattica dell’italiano LS

Aprile 2012

Supplemento alla rivista EL.LE - ISSN: 2280-6792
Direttore Responsabile: Paolo E. Balboni

Potenzialità e limiti dell’uso dei corpora linguistici per la didattica dell’italiano LS di Maria Grazia Guidetti, Gabriele Lenzi e Simona Storchi

ABSTRACT

Il presente lavoro parte dalla curiosità di verificare se sia possibile utilizzare i corpora linguistici nell’ambito dell’insegnamento dell’italiano come LS. Dopo una panoramica sui principali utilizzi dei corpora nella glottodidattica, ci concentriamo sull'utilizzo concreto dei corpora, cercando di identificare quali strategie e tecniche si possano sviluppare per condurre progressivamente gli studenti ad un utilizzo sempre più autonomo di tali strumenti.

Nella parte operativa offriamo alcuni esempi concreti di esercizi per un utilizzo guidato dei corpora, in cui il docente facilita l’approccio progressivo degli apprendenti, e esempi di attività in cui gli apprendenti sono chiamati ad utilizzare il corpus autonomamente, trasformandolo in strumento di lavoro e di studio e per ricercare – in prima persona – la soluzione a quesiti sul funzionamento della lingua.

1. INTRODUZIONE

Da oramai svariati decenni nell’ambito della linguistica computazionale sono stati prodotti numerosi contributi teorici miranti a dimostrare l’utilità dell’uso dei corpora per la conoscenza del funzionamento della lingua.

L’interesse della ricerca si è concretizzato nella pubblicazione di numerosi articoli e saggi ed ha avuto indubbiamente una ricaduta anche sulla stesura di materiali per l’insegnamento delle lingue: vocabolari, grammatiche, testi didattici, ecc. Possiamo dunque dire che l’utilizzo dei corpora si è affermato come strumento prezioso in grado di garantire una corrispondenza effettiva tra lingua autentica e lingua dei testi utilizzati per l’insegnamento/apprendimento (O’Keeffe, McCarthy, Carter 2007: 17-23).

Sono stati inoltre numerosi negli ultimi anni i contributi accademici che hanno cercato di spingere i docenti ad impiegare i corpora nel lavoro ‘sul campo’, enunciando i vantaggi che questi potrebbero apportare alla glottodidattica, in termini di acquisizione di competenze linguistiche, metalinguistiche nonché di competenze trasversali utili anche per lo studio di altre discipline (Aston 2001).

Più rare, anche se non assenti, le testimonianze dirette di un utilizzo effettivo da parte dei docenti anche dell’istruzione secondaria. Ricerche in tale settore hanno evidenziato come anche solo la conoscenza dell’esistenza dei corpora e dei loro possibili utilizzi sia patrimonio esclusivo di una esigua minoranza di insegnanti (Boulton 2009a). Evidentemente le acquisizioni della linguistica dei corpora stentano ancora a divenire patrimonio condiviso anche dai docenti che, in prima linea, dovrebbero fruire dei nuovi traguardi conoscitivi della ricerca in campo linguistico.

Va inoltre ricordato che la stragrande maggioranza di studi riguardante l’utilizzo dei corpora in glottodidattica è stato prodotto nell’ambito di una ricerca applicata all’insegnamento dell’inglese: se ci si rivolge al settore dell’insegnamento dell’italiano, la situazione di scarsa consapevolezza è ancora più diffusa e l’assenza di riflessione è ancora più marcata.

Il presente lavoro parte dunque da una curiosità: quella di verificare se sia possibile utilizzare i corpora in un lavoro ‘sul campo’ nell’ambito dell’insegnamento dell’italiano come LS.

1.1 CHE COSA SONO I CORPORA

Per partire da una descrizione chiara e semplice di cosa sia un corpus, ci varremo della definizione di un noto linguista italiano: Corpus (plurale corpora) è voce latina che indica una qualsiasi “raccolta completa e ordinata di scritti di uno o più autori riguardanti una certa materia”, oppure, in senso propriamente linguistico, un “campione di una lingua preso in esame nella descrizione di una lingua” (De Mauro 2003: 346). La diffusione delle tecnologie informatiche ha permesso di acquisire grandi quantità di testi diversi, etichettare gli elementi (tagging) e analizzarli in modo quantitativo e qualitativo (Chiari 2007: 42).

La tradizione di studi linguistici basati su grandi archivi di testi esisteva ben prima dell’invenzione dei computer (basti pensare alle compilazioni di dizionari del XVIII secolo che utilizzavano grandi quantità di citazioni), ma è nel 1964 che si realizza il primo corpus elettronico per studiare l’inglese americano degli anni Sessanta: il Brown Corpus di circa un milione di parole. In anni più recenti il progetto “pionieristico” più rilevante in Europa fu il Cobuild (poi rinominato Bank of English) realizzato da John Sinclair nel 1980 che raccolse il più ampio corpus della lingua inglese moderna: da questo progetto nel 1987 è nato il primo dizionario creato interamente dal computer.

1.2. I CORPORA DI ITALIANO

Per quanto riguarda la lingua italiana lo sviluppo dei corpora è assai più recente. Il primo corpus di 500 mila occorrenze testuali è stato il Lessico di frequenza della lingua italiana contemporanea (LIF) elaborato dal Centro nazionale universitario di calcolo elettronico di Pisa nel 1971.

Nel 1993 è nato il LIP, Lessico di frequenza dell’italiano parlato ospitato sul sito della Banca Dati dell'Italiano Parlato (BADIP) curato da un gruppo di linguisti diretti da T. De Mauro. Costituito da circa 500 mila parole grafiche, è uno tra i più utilizzati nella ricerca linguistica.

Negli anni a seguire (e senza pretese di esaustività) sono nati il Corpus e Lessico di Frequenza dell’Italiano Scritto (ColFIS), costituito di oltre 3 milioni di occorrenze lessicali tratte da quotidiani, periodici e libri di varia natura, il Corpus di Italiano Scritto contemporaneo (CORIS) 1998 dell’Università di Bologna, con 100 milioni di parole tratte prevalentemente da narrativa prodotta negli anni Ottanta e Novanta, La Repubblica Corpus (curato dalla SSLMIT dell’Università di Bologna) che include le annate di Repubblica dal 1985 al 2000. Inoltre citiamo il Corpus Webbit, raccolta di pagine web italiane (circa 150 milioni di parole), effettuata da Marco Baroni nel 2007 e il sito Corpora Unito.it (Università di Torino), una raccolta di corpora e strumenti informatici per le lingue.

Tutti i corpora consultabili online propongono testi autentici che possono essere interrogati in vario modo: dalle liste di frequenza alla lemmatizzazione dei testi, all’analisi degli usi con le concordanze, a interrogazioni più avanzate. Va tuttavia rilevato che sono pochi i corpora con un’interfaccia intuitiva e accattivante o privi di limitazioni di accesso all’utilizzo. In diversi casi, l’utente è posto di fronte a modalità di interrogazione molto specializzate dal punto di vista della formalizzazione linguistica, con maschere di ricerca che prevedono opzioni di non facile comprensibilità.

Ci siamo messi nei panni dunque di docenti di italiano LS/L2 (quali siamo) fortemente motivati ad utilizzare i corpora nell’ambito della propria didattica, ma non intenzionati a diventare esperti di annotazione morfosintattica, lemmatizzazione, indicizzazione. Di conseguenza ci siamo rivolti a quei corpora a nostro parere caratterizzati da un’interfaccia user-friendly, facilmente utilizzabili e che fornissero degli output grafici che non richiedessero un eccessivo lavoro di editing.

In particolare abbiamo utilizzato:

- La Repubblica Corpus: la concessione di username e password è pressoché immediata, l’interfaccia è molto intuitiva e permette di effettuare una ricerca semplice. Il risultato può essere richiesto sotto forma di parole, lemmi o di POS (part-of-speech) e l’output viene fornito in una forma Kwic (Key Word in Context cioè allineata in una stessa colonna) molto chiara e leggibile.

- SketchEngine: è un sito che offre strumenti di analisi di corpora in varie lingue, tra cui anche l’italiano. è in grado di generare concordanze, word sketches che riassumono il comportamento collocazionale e grammaticale di una parola, thesaurus e sketch differences che definiscono somiglianze e differenze tra quasi-sinonimi. Dopo un mese di utilizzo gratuito si deve acquistare una licenza d’uso per poter continuare ad utilizzarlo.

- Il Corpus LIP: l’accesso è immediato e l’utilizzo è guidato da una finestra di aiuto cliccabile abbastanza chiara anche se l’output è contenuto in brani di testo di diversa lunghezza. Si può formulare una ricerca selezionando i testi sia sulla base della provenienza (Milano, Firenze, Roma e Napoli) sia secondo il genere testuale, mostrando concretamente le peculiarità del registro informale e colloquiale di parlanti nativi.

2. PRINCIPALI UTILIZZI DEI CORPORA NELLA GLOTTODIDATTICA

I corpora sono stati utilizzati ampiamente nello studio della linguistica. Senza entrare negli aspetti prettamente tecnici della ricerca nel settore, vorremmo qui individuare i campi principali in cui tale analisi ha contribuito ad un loro utilizzo glottodidattico.

2.1 LISTE DI FREQUENZA

Uno degli strumenti principali per interrogare un corpus linguistico sono le liste di frequenza degli item lessicali. è questo sicuramente l’utilizzo più immediato, perché facilitato dall’elaborazione computerizzata dei dati e offre la base per analisi di tipo quantitativo, ma anche per sviluppare considerazioni qualitative.

Tali liste offrono indicazioni preziose nel campo del syllabus design e nella preparazione dei materiali didattici, in particolare per la scelta del lessico e della sintassi da affrontare fin dai primi stadi di apprendimento della lingua straniera. Esse permettono infatti di individuare gli elementi più frequenti, che sono perciò maggiormente utili nella comunicazione (Hunston 2002:189).

Un altro loro utilizzo può essere un’analisi delle frequenze di lemmi in tipi testuali diversi di conversazioni trascritte, come ad es. quelle contenute nel Corpus LIP (Lessico di frequenza dell’italiano parlato).

Indicazioni significative si ottengono anche per la pianificazione dei materiali di apprendimento delle microlingue da liste di frequenza di corpora specialistici, che consentono di identificare i termini più frequenti, quindi maggiormente necessari per poter interagire in contesto economico, giuridico o tecnologico, da includere nei materiali di apprendimento e su cui insistere nell’uso produttivo.

Il confronto tra le parole di maggiore frequenza nei corpora generali e in quelli specialistici si presta anche a considerazioni di tipo pragmatico e sociolinguistico, relativamente al registro linguistico, alla funzione comunicativa e all’organizzazione testuale, utilissime in ambito glottodidattico.

Le analisi di frequenza in corpora paralleli possono inoltre fornire materiale per riflessioni sulle varietà diatopiche della lingua. Anche l’analisi diacronica può trarne vantaggio, ad es. per documentare la scomparsa di elementi lessicali desueti e l’inserimento di nuove parole nell’uso comune.

Già da tempo l’analisi di frequenza si applica anche ai testi letterari, permettendo di ottenere risultati particolarmente significativi per comprendere le scelte stilistiche dell’autore. Anche in questo caso le liste di frequenza rappresentano uno strumento affidabile, fornendo dati quantitativi attendibili e basati sui grandi numeri dei campioni linguistici raccolti.

2.2. COLLOCAZIONE E SIGNIFICATO

Raramente una parola ha un significato univoco; rispetto alla struttura grammaticale e all’aspetto fonologico della lingua, che forniscono descrizioni precise e regolari, il significato delle parole appare generalmente ambiguo e vago. In genere i lemmi registrati nel dizionario presentano più di un’accezione, ma riusciamo a capirne il significato solo quando leggiamo la parola o frase nel contesto, quando la vediamo legata agli elementi precedenti e seguenti. Spesso l’unità di significato è data dalle collocazioni e non dalla singola parola isolata e solo quando notiamo i collocati semanticamente rilevanti di una parola scompare la sua ambiguità. è qui che i corpora rivelano la loro immensa potenzialità, permettendo di ottenere una gran quantità di concordanze e di individuare le collocazioni utili a illuminare i significati.

La collocazione è la tendenza statistica di parole a co-occorrere (presentarsi assieme) e questo frequente abbinamento porta con sé significati ulteriori che non corrispondono alla somma dei significati delle singole parole.

Grazie alle concordanze si possono estrapolare indicazioni su come usare un dato item lessicale, cioè quali parole usare prima o dopo. Ovviamente, la definizione del significato necessita di un successivo percorso di interpretazione, un processo di negoziazione che terrà conto delle differenti sfumature e accezioni (Teubert 2007:88 definisce tale processo “parafrasi”). Anche in tale processo di negoziazione i corpora, se utilizzati opportunamente, possono aiutare gli apprendenti a riconoscere e interpretare i diversi significati, facendoli diventare sempre più autonomi nella consultazione delle concordanze. Su questi aspetti sono incentrate alcune attività didattiche che proponiamo più avanti nella parte pratica del presente articolo.

2.3 CONCORDANZE E DESCRIZIONE DELLA LINGUA

Le concordanze raccolgono molti esempi di uso di una parola o frase permettendoci di osservare delle regolarità che altrimenti difficilmente noteremmo in contesti normali. L’individuazione di questi pattern e i relativi ambiti di significato hanno portato alcuni linguisti a concentrarsi su una descrizione della lingua come fraseologia. I corpora possono essere usati anche da studenti e docenti per generare e verificare descrizioni linguistiche, per ottenere conoscenze sulla lingua, nello specifico sulla tendenza degli elementi lessicali a co-occorrere e legarsi in strutture tipiche (lexical bundle, fenomeni sintagmatici, espressioni idiomatiche, collocazioni), che difficilmente si possono spiegare con le regole della grammatica tradizionale o della sociolinguistica. Pensiamo ad esempio ad espressioni polirematiche come passare il testimone, alzare il gomito, vuotare il sacco, tagliare la corda; il significato non è dato dalla somma dei significati delle singole parole, ma è l’insieme della frase che lo trasmette e noi lo percepiamo nella interezza della frase. Inoltre elementi come la, il perdono il significato grammaticale proprio della categoria dei determinanti e assumono anch’essi significato lessicale perché facenti parte del senso globale: volendo sostituire, per esempio, il determinante la con una, si otterrebbe tagliare una corda che mantiene solo il significato denotativo, ‘atto materiale di tagliare un cavo’, e perde totalmente quello idiomatico di ‘fuggire’.

Viene perciò a cadere la distinzione tra parole lessicali e parole grammaticali e, in ultima analisi, la distinzione tradizionale tra lessico e grammatica. Considerare la lingua in questa prospettiva è ciò che Sinclair (1991) chiama idiom principle: la lingua è un grande inventario di espressioni lessicalizzate e il significato risiede nell’intera frase invece che nelle singole parti che la compongono.

Dall’analisi dei corpora si deduce che la fraseologia è al cuore della descrizione linguistica, per la tendenza delle parole a occorrere in sequenze specifiche. Risulta quindi evidente quanto l’utilizzo dei corpora abbia contribuito ad ampliare le prospettive della descrizione della lingua, indicando un approccio utile per capire la natura idiomatica della lingua da cui la prassi glottodidattica non può prescindere (Hunston 2002: 106).

3. PROMOZIONE DELL'AUTONOMIA D'APPRENDIMENTO

Nel lavoro in classe, il ricorso alle attestazioni della lingua effettivamente usata, disponibile grazie ai corpora, permette l’instaurarsi di un setting di lavoro in cui l’insegnante non è più la sola fonte delle conoscenze e lo studente un passivo ricettore di regole: tutti e due i ruoli sono attivi e tutte e due le figure possono lavorare insieme per raggiungere un obiettivo comune (Boulton 2009a: 82). In questo approccio il docente può assumere il ruolo di regista, di facilitatore di processi comunicativi che predispone percorsi formativi il più possibile individualizzati, abbassando i possibili “filtri affettivi” che possono limitare l’apprendimento (Krashen e Terrell 1983).

Un uso autonomo dei corpora presuppone del resto studenti che abbiano già acquisito diverse conoscenze e abilità di tipo metodologico, tecnologico e concettuale, ad es. selezionare e raggruppare soluzioni per evidenziare diversi tipi di pattern, scartare le soluzioni irrilevanti, valutare la precisione della richiesta scegliendo una formulazione che fornisca una risposta adatta alle proprie necessità, interpretare e rielaborare l’output della concordanza in modo da ottenere risposte utilizzabili e affidabili (Gavioli 2001: 113). Sta dunque al docente scegliere quale sia il grado di autonomia di lavoro da proporre ai propri studenti, in base alle abilità che vuole sviluppare.

3.1 STRATEGIE PER UN USO AUTONOMO DEI CORPORA

E' indubbio che l’uso dei corpora sia all’inizio particolarmente impegnativo per il docente: per l’insieme di conoscenze di natura tecnologica e linguistica richiesto, per la scansione dei tempi, per la preparazione dei materiali, per la necessità di familiarizzare gli studenti con modalità di lavoro spesso sconosciute.

In letteratura sono state inoltre evidenziate le difficoltà che gli studenti incontrano nel caso in cui l’uso autonomo dei corpora non sia preceduto da un training strutturato: Bernardini (1998: 230-231) rileva la tendenza ad ignorare le varianti, a non prendere in considerazione approcci alternativi quando ci si trova di fronte ad un ostacolo e a effettuare un’analisi del contesto spesso sommaria; Kennedy e Miceli (2001: 81) constatano che spesso le difficoltà degli studenti sono riconducibili a carenze di rigore nell’osservazione e nel ragionamento nonché a un’evidente ignoranza di alcune ‘trappole’ comuni e delle tecniche per evitarle. Il docente dovrà dunque proporre un itinerario per familiarizzare progressivamente gli apprendenti con l’uso dei corpora, tramite esercizi graduati miranti a rendere gli studenti più attenti alle proprie strategie e più sicuri nella formulazione di domande, nella selezione, classificazione e interpretazione dei materiali reperiti.

Le prime attività consigliabili da introdurre sono sicuramente le concordanze, che permettono una visualizzazione chiara e intuitiva del nodo, la parola attorno alla quale sono allineate centralmente le frasi. Nelle fasi iniziali, il docente potrà cercare di facilitare l’approccio alla novità dell’uso dei corpora selezionando un corpus non particolarmente difficile, contenente tipi di testi conosciuti agli apprendenti o testi di carattere omogeneo (Brodine 2001:172-173). In base al livello linguistico degli apprendenti è inoltre possibile selezionare le righe di concordanze, scegliendo quelle che meglio di altre presentano i fenomeni linguistici su cui svolgere la ricerca e la riflessione.

La prima strategia che uno studente deve apprendere è quella che gli permette di formulare la domanda ‘giusta’, cioè sufficientemente specifica. Ad esempio è utile portare lo studente a riflettere sui diversi tipi di domande dalle quali derivano diversi stili di interrogazione dei corpora (domande chiuse a risposta sì/no o a scelta multipla o domande aperte). Individuata la domanda, si tratta di elaborare una strategia di ricerca: gli studenti devono comprendere che, per essere efficace, la loro ricerca non dovrà generare un’eccessiva quantità di risultati irrilevanti, ma dovrà invece puntare a fare emergere dalle righe di concordanza proprio quel fenomeno che deve essere approfondito. Va dunque presa in considerazione la possibilità di restringere ulteriormente la ricerca.

Il passo successivo sarà indirizzato a migliorare la consapevolezza degli studenti rispetto all’osservazione dei dati ottenuti e alla selezione degli esempi che servono per comprovare la loro ‘scoperta’. Inoltre, anche in questa fase, andranno guidati a prestare attenzione anche alle occorrenze minoritarie e più in generale a ragionare su cosa significhi la quantità (o la scarsezza) di occorrenze reperite. Fondamentale sarà poi l’imparare a rapportare le conclusioni alla domanda che ci si era posti all’inizio (Kennedy e Miceli 2001: 87). Inizialmente è anche consigliabile che il docente limiti la mole dei dati, raggruppando graficamente le citazioni che favoriscono l’emergere dell’elemento linguistico da studiare o espungendo le citazioni irrilevanti o che potrebbero trarre in inganno lo studente (Zorzi 2001: 97).

3.2 AUTONOMIA NELL'USO DEI CORPORA E ABILITA' TRASVERSALI

I corpora possono offrire strumenti e percorsi di apprendimento ben più complessi e ricchi della semplice conoscenza sul funzionamento della lingua. Come abbiamo visto, infatti, essi permettono di sviluppare una consapevolezza metalinguistica e metacognitiva, potenziando l’abilità dell’apprendente di cogliere regolarità nei dati e di interpretarli. Questo a nostro parere è possibile se si valorizza non solo il livello della forma linguistica bensì anche quello della comunicazione, dei significati e della loro negoziazione. Più concretamente, i corpora dovrebbero entrare nella glottodidattica come strumenti ‘laboratoriali’, attorno ai quali strutturare attività di discussione, cooperative learning, percorsi di scoperta, sperimentazione e verifica in grado di motivare lo studente a mettere alla prova le proprie capacità di osservazione e interpretazione.

Un possibile utilizzo in questo senso è quello di un’analisi delle concordanze finalizzata ad offrire agli studenti percorsi di problem solving o di ‘reasoning gap’, consistente nel derivare nuove informazioni da informazioni date, grazie a un processo di inferenza, deduzione, ragionamento pratico o una percezione di relazioni o modelli (Prabhu 1987: 46 in Bernardini 2001: 224). Si possono inoltre distribuire a diversi studenti o gruppi di studenti spezzoni di concordanze che poi questi dovranno riassemblare e sulla base delle quali dovranno formulare ipotesi e negoziare le loro deduzioni con gli altri, cercando di colmare il loro gap informativo grazie ad un processo di negoziazione comunicativa con gli altri studenti. Secondo Bernardini (2001) questo lavoro può essere valorizzato dall’impiego di concordanze di corpora ampi, proponendo agli studenti attività con un numero diverso di variabili da negoziare e permettendo loro di scegliere di volta in volta i dati, il corpus, e anche l’oggetto della ricerca. Questo tipo di lavoro con i corpora offre “virtually unlimited opportunities for learning by discovery, as learners embark on challenging journeys whose outcomes are unpredictable and usually rewarding” (Bernardini 2001: 246).

Far negoziare in maniera comunicativa agli studenti le loro attività di analisi dei corpora permette loro, come afferma Johns (1991:2), di sperimentare il ruolo del ricercatore, e ciò è destinato a tradursi positivamente in termini di motivazione e coinvolgimento, oltre che di acquisizione di abilità metacognitive, di indagine e di apprendimento reciproco.

L’utilizzo dei corpora presuppone inoltre un allenamento dell’apprendente con operazioni mentali di generalizzazione e degeneralizzazione (Sinclair 2003: xv): la prima consiste nel riuscire a trarre dalle righe di concordanza una descrizione del comportamento di un elemento linguistico (verbo, avverbio, locuzione idiomatica, ecc.) che sia il più possibile predittiva e ciò ovviamente richiede un’operazione di astrazione; la seconda consiste nell’analizzare attentamente tutte le occorrenze, cercando riscontri delle strutture conosciute nei dati reperiti: ciò comporta imparare a formulare le domande giuste e a staccarsi dalle ‘verità’ acquisite passivamente nel passato, concentrandosi su ciò che la ricerca del corpus ci sta offrendo.

A nostro parere risulta dunque giustificato l’investimento iniziale di energie richiesto a docenti e studenti dall’uso dei corpora, nel senso che esso può tradursi in un potenziamento delle abilità di studio complessive sul medio periodo. Come rileva Boulton (2009a), sono svariati i contributi che sottolineano la natura interdisciplinare dell’utilizzo dei corpora al fine di incoraggiare gli apprendenti ad applicarne i metodi alla letteratura, ai cultural studies o ai propri interessi personali, quali ad esempio i testi delle canzoni o la trascrizione del parlato dei film.

4. ATTIVITA' DIDATTICHE

Come già evidenziato, ad un consistente interesse della ricerca linguistica accademica sui possibili utilizzi dei corpora nella glottodidattica non è corrisposta un’altrettanto consistente ricaduta nell’applicazione didattica concreta nelle classi di lingua straniera.

Tra le cause si può individuare una sorta di blocco psicologico da parte dei docenti, che percepirebbero nell’uso dei corpora una perdita di potere e di controllo in quanto detentori del sapere linguistico, oltre al fatto che diversi software o siti che ospitano corpora effettivamente sono poco appropriati per attività linguistiche con utenti medi e spesso nelle scuole i laboratori non sono sempre disponibili né adeguatamente forniti di strumenti idonei (Boulton 2009b).

Le attività che abbiamo elaborato sono basate su siti facilmente accessibili, con un’interfaccia abbastanza user-friendly e con modalità di interrogazione non troppo specializzate. Alcune possono essere parzialmente svolte anche su supporto cartaceo. Inoltre, pensiamo che le attività con i corpora non debbano spaventare i docenti rispetto ad un’eventuale perdita di credibilità o di ruolo: la situazione laboratoriale che si può creare permette anzi al docente di assumere uno stimolante ruolo di facilitatore che non va certo a discapito della sua autorevolezza.

Agli inizi degli anni Novanta Johns (1991) coniò il concetto di “data-driven learning” (DDL) per descrivere le procedure con le quali le concordanze di particolari fenomeni linguistici possono essere analizzate dagli apprendenti per inferire e verificare generalizzazioni riguardanti il loro uso seguendo un approccio induttivo o deduttivo. Nel tipo di approccio induttivo gli studenti partono dai dati delle concordanze, scoprendo aspetti della lingua, identificando strutture ricorrenti, formulando ipotesi che le spieghino tramite operazioni sequenziali di osservazione, classificazione e generalizzazione. è insomma un “apprendimento per scoperta”: gli studenti partono da esempi concreti e, autonomamente, cercano di osservare e selezionare le strutture e ciò porta ad una più efficace acquisizione e ritenzione dei fenomeni osservati. Nel tipo di approccio deduttivo, gli apprendenti applicano le generalizzazioni precedentemente acquisite per classificare i dati della concordanza, verificando in prima persona le regole che hanno appreso e con ciò consolidando e/o perfezionando le loro conoscenze.

Negli esercizi proposti si alternano fasi di induzione e deduzione, di osservazione e descrizione della lingua, di scoperta e generalizzazione:

- Il primo esempio proposto (4.1) consiste in alcune attività di utilizzo guidato dei corpora, in cui il docente facilita l’approccio graduato e progressivo degli apprendenti.

- Nella seconda (4.2) e terza (4.3) attività gli apprendenti sono chiamati ad utilizzare il corpus anche autonomamente, cercando di trasformarlo in strumento di lavoro e di studio e per ricercare la soluzione a quesiti sul funzionamento della lingua.

Per accedere ai file si clicchi sui collegamenti ipertestuali qui a seguire:

-4.1 Esempio di attività di prelettura

-4.2 Una webquest sui connettivi

-4.3 La pasta: esplorazione lessicale nel campo della cultura alimentare

5. CONCLUSIONI

Alcune attività didattiche presentate nella parte operativa del presente lavoro sono state somministrate a gruppi di studenti di italiano LS per verificare l’impatto con lo strumento corpus e la sua validità pedagogica. Non possiamo parlare di sperimentazione né intendiamo presentare dati scientifici perché l’indagine è stata svolta con un numero esiguo di studenti in contesto LS (l’attività 4.1 anche con studenti L2), solo in un breve periodo e in modo occasionale. Tuttavia, proponiamo alcune impressioni tratte dall’osservazione dello svolgimento delle attività e dalla compilazione da parte degli studenti di un questionario di gradimento.

Come primo approccio abbiamo presentato attività guidate, tra cui quella del § 4.1, allo scopo di familiarizzare gli studenti con le concordanze nel formato KWIC, già selezionate dal docente, e di far rilevare l’utilità della loro consultazione. Si è poi passati alle attività più autonome (§ 4.2 e § 4.3) in cui hanno dovuto misurarsi con l’accesso ai corpora, la formulazione delle interrogazioni e l’analisi dei risultati.

Nell’attività di pre-lettura (§ 4.1) non si sono riscontrate difficoltà nell’abbinamento delle parole chiave ai gruppi di concordanze; il lavoro svolto è risultato utile per l'arricchimento lessicale e ha condotto ad un interessante dibattito su temi ambientali.

Più in generale abbiamo tuttavia rilevato le seguenti criticità. . Ad esempio, di fronte alla richiesta di individuare aggettivi e verbi che accompagnano la parola nodo, gli studenti spesso si fermavano alle parole immediatamente vicine, senza guardare oltre alla prima a destra o a sinistra, e senza verificarne l’effettiva frequenza negli esempi. Questo problema è comunque superabile con l’intervento iniziale del docente e soprattutto con un frequente allenamento per imparare a identificare gli elementi significativi: co-occorrenze non casuali, collocazioni più o meno frequenti e significati.

Come era prevedibile, le attività di utilizzo autonomo dei corpora hanno prodotto maggiore coinvolgimento da parte degli studenti ma anche maggiori complicazioni nello svolgimento. Interessante è stato il dibattito interculturale seguito alla attività sulla pasta, come anche le riflessioni linguistiche emerse dalla webquest, pur con alcune difficoltà.

Nonostante il livello di conoscenza della lingua non costituisse un sostanziale ostacolo alla comprensione di buona parte delle concordanze trovate (gli studenti interpellati possiedono competenze tra B2 e C1), le analisi effettuate tendono ad essere sommarie e talvolta dispersive: anche questo era prevedibile, perché spesso agli studenti mancano strumenti di analisi linguistica mediante i corpora, quelle che Kennedy e Miceli (2001:88) chiamano “inadequate corpus-investigation skills”.

Dopo lo svolgimento è stato somministrato un questionario di gradimento delle attività con i corpora (con domande relative a difficoltà/semplicità della consultazione, utilità della fonte corpora, intenzione di utilizzo futuro in modo autonomo) che, insieme a una breve discussione, ha fornito alcuni utili spunti di riflessione per noi docenti.

In primo luogo osserviamo che la temuta difficoltà generata da frasi isolate avulse dal contesto non ha costituito ostacolo per le attività: dopo i primi esempi e un breve scambio di opinioni, gli studenti si concentravano maggiormente sull’uso, sulle strutture che accompagnano le parole chiave, invece che sul cercare di capire il significato dei componenti della frase. è stata inoltre notata l’utilità di vedere la parola nodo in contesti diversi: formale/informale, microlingua e contesto generale, ecc. Ciò ha permesso di riattivare conoscenze pregresse degli studenti relative a variazioni diafasiche, diastratiche e diamesiche.

Riguardo al gradimento dell’utilizzo dei corpora, tutti hanno evidenziato che “occorre tempo, ma è utile”, soprattutto perché qui trovano informazioni difficilmente reperibili nel dizionario, per cui si può certamente considerare il corpus come una risorsa complementare. Tuttavia la maggior parte degli studenti afferma l’intenzione di continuare a usare i corpora in futuro solo con la guida dell’insegnante, evidenziando una certa esitazione e difficoltà nell’uso autonomo. Ciò si può leggere come un’ulteriore conferma di quanto emerso dalla letteratura sull’argomento, vale a dire di quanto sia necessario l’allenamento sistematico all’uso dello strumento: la sensazione di insicurezza che gli studenti avvertivano nel trarre conclusioni dall’osservazione delle concordanze è data proprio dalle limitate corpus-investigation skills che con l’esperienza non possono che migliorare.

Concludendo, consapevoli che i corpora sono solo uno strumento tra i tanti disponibili, auspichiamo che questo nostro contributo ne promuova l’utilizzo nell’apprendimento dell’italiano LS e L2 e che, data la ricchezza di informazioni che vi si trova, la consultazione di queste banche dati linguistiche diventi una prassi consolidata per la didattica della classe e per l’uso autonomo dello studente allo scopo di migliorarne le competenze.

BIBLIOGRAFIA

ANDORNO C. & RASTELLI S. (2009) Corpora di italiano L2: tecnologie, metodi, spunti teorici, Perugia, Guerra.

ASTON, G. (a cura di) (2001) Learning with corpora, Bologna, CLUEB.

ASTON, G., (2002) "The learner as corpus designer" in B. Kettemann and G. Marko (eds) Teaching and learning by doing corpus analysis. Amsterdam, Rodopi. 9-25. http://www.sslmit.unibo.it/~guy/graz.htm (ultima consultazione 25.01.2012).

ASTON, G., Bernardini S. & Stewart D. (a cura di) (2004) Corpora and Language Learners, Amsterdam/PfiladelPhia, John Benjamins.

BALBONI, P. (2002) Le sfide di Babele. Insegnare le lingue nelle società complesse, Torino, UTET Libreria.

BERNARDINI, Silvia (2000), “Systematizing serendipity: proposals for concordancing large corpora with learners”. In: Burnard/McEnery (2000), 225-234.

BERNARDINI, S. (2001) "'Spoilt for choice': A learner explores general language corpora". In: Aston, G. (a cura di) (2001) Learning with corpora, Bologna, CLUEB: 220-249.

BOULTON, A. (2009a) “Data-Driven Learning: Reasonable Fears and Rational Reassurance”, Indian Journal of Applied Linguistics. 35, 1: 81-106, http://hal.archives-ouvertes.fr/hal-00326990/en/ (ultima consultazione 25.01.212)

BOULTON, A. (2009b) “Data-Driven Learning: On Paper, In Practice”. In: Harris, T. & Moreno Jaén M. (a cura di) Corpora in Language Teaching. Bern, Peter Lang (Linguistic Insights). Pre-print version, hal.archives-ouvertes.fr/docs/00/39/38/09/PDF/2009_boulton_LANG_paper.pdf (ultima consultazione 25/01/2012)

BRODINE, R. (2001) "Introducing corpus work into an academic reading course". In: Aston, G. (a cura di) (2001) Learning with corpora, Bologna, CLUEB: 138-176.

BURNARD, L. & McEnery, T. (a cura di) (2000), Rethinking language pedagogy from a corpus perspective, Frankfurt am Main, Peter Lang.

CAMOGLIO, M. & Cardoso, M. (1996) Insegnare ad apprendere in gruppo. Il Cooperative Learning, Roma, LAS.

CARDONA, M. (2008) "L’insegnamento e l’apprendimento del lessico in ambiente CLIL. Il CLIL e l’approccio lessicale. Alcune riflessioni", Studi di Glottodidattica, 4, pp. 1-20.

CHAMBERS, A. & Kelly, V. (2002) “Semi-specialised corpora of written French as a resource in language teaching and learning”, Teanga, 21: 20-21.

CHIARI, I. (2007) Introduzione alla linguistica computazionale, Bari, Laterza.

DAVIES G., Lamy M.N. & Mortensen H.J.K. (s.d.) L'uso dei programmi di analisi delle concordanze nella classe di lingue moderne, [Internet], (50 pagine) Modulo 2.4 in Davies G. (ed) Information and Communication Technology for Language Teachers (ICT4LT), Slogh, Thames Valley University, http://www.ict4lt.org/it/it_mod2-4.htm (ultima consultazione 25.01.2012).

DE MAURO, T. (2003) Grande dizionario italiano dell'uso, Torino, UTET.

DE MAURO, T. (2008) Linguistica elementare, Bari, Laterza.

DOLCI, R. & Mezzadri, M. (s.d.) Glottotecnologie, Materiali didattici per il Master ITALS dell’Università Ca’ Foscari di Venezia, consultato su http://www.itals.it (ultima consultazione 26.10.2009, accesso con password).

EFRATI, V. (2008) “Breve guida all’uso di alcuni software per l’analisi testuale ed il trattamento automatico del linguaggio (TAL)”, (ultima consultazione 25.01.2012).

FRIES, C. C. (1952) The Structure of English, New York, Harcourt, Brace & World.

GAVIOLI, L. (2001) "The Learner as Researcher: Introducing Corpus Concordancing in the Classroom". In: Aston, G. (a cura di) (2001) Learning with corpora, Bologna, Clueb: 108-137.

HUNSTON, S. (2002) Corpora in Applied Linguistics, Cambridge, CUP.

JESPERSEN, O. (1909-49), A Modern English Grammar on Historical Principles, V, London, George Allen & Unwin Ltd.

JOHNS, T. (1991) "Should you be persuaded - Two Examples of Data Driven Learning Materials", English Language Research Journal 4: 1-16.

KENNEDY, C. , Miceli T. (2001) "An Evaluation of Intermediate Students’ Approaches to Corpus Investigation", Language Learning & Technology, 5, 3, 77-90. Reperibile online: http://llt.msu.edu/vol5num3/kennedymiceli/ (ultima consultazione 25.01.2012).

KRASHEN, S.D. & Terrell T.D. (1983) The natural approach: language acquisition in the classroom, Oxford, Pergamon.

MCENERY, T. & Wilson A. (1996) Corpus Linguistics. An Introduction, Edinburgh, Edinburgh University Press.

O'KEEFFE, A., McCarthy, M. & Carter, R. (2007) From Corpus to Classroom. Language Use and Language Teaching, Cambridge, CUP.

PARTINGTON, A. (2001) “Corpus-based description in teaching and learning”. In: Aston G., (a cura di) Learning with corpora, Bologna, CLUEB: 63-84.

PICCHIASSI, M. (1999) Fondamenti di glottodidattica, Perugia, Guerra.

PRABHU, N.S. (1987) Second language pedagogy, Oxford, OUP.

QUIRK, R., GREENBAUM, S., LEECH, G. & SVARTVIK, J. (1972) A Grammar of Contemporary English, London, Longman.

RöMER, U. (2008) "Corpora and language teaching". In: Lüdeling, A.& Kytö, M. (a cura di). Corpus Linguistics. An International Handbook (volume 1), Berlin, Mouton de Gruyter: 112-130.

RöMER, U. (2006) “Pedagogical applications of corpora: Some reflections on the current scope and a wish list for future developments”, Zeitschrift für Anglistik und Amerikanistik 54,2: 121-134. Special issue: "The scope and limits of corpus linguistics - Empiricism in the description and analysis of English" (ed. Volker Gast).

SCHMITT, N. (2000) Vocabulary in Language Teaching, Cambridge, CUP.

SINCLAIR, J. (1991) Corpus Concordance Collocation, Oxford, OUP.

SINCLAIR, J. (1996) "The Empty Lexicon", International Journal of Corpus Linguistics, 1 (1), 99-119.

SINCLAIR, J. (2000) "Lexical Grammar", Naujoji Metodologija, 24, 191–204.

SINCLAIR, J. (2003) Reading Concordances. An Introduction, London, Pearson.

SINCLAIR, J. (a cura di) (2004) How to Use Corpora in Language Teaching, Amsterdam, John Benjamins.

SOURS, P. & Castello E. (2004) "The use of corpora for teaching LSP"(legal and journalistic corpora). In: Atti del Seminario Esperienze innovative e riflessioni per il futuro, a cura del Centro Linguistico di Ateneo, Padova, CLEUP: 185-197.

SPINA S. (2001) Fare i conti con le parole. Introduzione alla linguistica dei corpora, Perugia, Guerra.

STUBBS, M. (2004) “Language corpora”. In Davies, A. & Elder, C. (a cura di) Handbook of Applied Linguistics, Oxford, Blackwell: 106-32.

TAYLOR TORSELLO, C., BRUNETTI G. & PENELLO N. (a cura di) (2001) Corpora Testuali per ricerca, traduzione e apprendimento linguistico, Padova, UNIPRESS: 241-246.

TEUBERT W. & Cermakova A. (2007) Corpus Linguistics. A Short Introduction, London, Continuum.

TRIBBLE, C. (1997) "Improvising corpora for ELT: quick-and-dirty ways of developing corpora for language teaching". In: Melia, J. & Lewandowska-Tomaszczyk B. (a cura di) PALC 97: Practical Applications in Language Corpora Lodz, Lodz University Press.

TRIBBLE, C. (2000) "Genres, Keywords, Teaching: Towards a Pedagogic Account of the Language of Project Proposals. In: Burnard L. & McEnery A. (a cura di) Rethinking Language Pedagogy from a Corpus Perspective: Papers from the Third International Conference on Teaching and Language Corpora, (Lodz Studies in Language), Hamburg, Peter Lang.

WICHMANN, A. et al. (a cura di) (1997) Teaching and Language Corpora, London & New York, Longman.

ZORZI, D. (2001) "The Pedagogic Use of Spoken Corpora: Learning Discourse Markers in Italian”. In: Aston, G. (a cura di) (2001) Learning with corpora, Bologna, CLUEB: 85-107.

SITOGRAFIA

http://www.alphabit.net/Corsi/IUlinks/CorporaList.htm#italiano

Alphabit: pagina curata da Isabella Chiari e contenente, nella rubrica Corpora, una lista aggiornata e ragionata di corpora per l’italiano.

http://languageserver.uni-graz.at/badip/badip/home.php

BADIP - Banca Dati dell'Italiano Parlato:
database curato da un gruppo di linguisti diretti da T. De Mauro, parte del Language Server della Karl-Franzens-Universität di Graz (Austria). È costituito da circa 500 mila parole grafiche e dalle trascrizioni di registrazioni effettuate in varie città italiane.

http://www.ge.ilc.cnr.it/strumenti.php

CoLFIS - Corpus e Lessico di Frequenza dell’Italiano Scritto:
corpus costituito da oltre tre milioni di occorrenze lessicali, tratte da quotidiani, periodici e libri di varia natura, bilanciate secondo i dati ISTAT sulle letture preferite dagli italiani.

http://corpora.dslo.unibo.it/coris_ita.html

CORIS/CODIS - Corpus di Italiano Scritto contemporaneo: progetto dell’Università di Bologna composto da circa 100 milioni di parole. I testi contenuti sono prevalentemente di narrativa prodotta negli anni ottanta e novanta.

http://dev.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica

La Repubblica Corpus: corpus curato dalla SSLMIT dell’Università di Bologna, include le annate di Repubblica dal 1985 al 2000. Contiene quasi 400 mila occorrenze di italiano giornalistico.

http://clic.cimec.unitn.it/marco/webbit/index.html

Corpus Webbit: corpus di pagine web italiane che contiene circa 150 milioni di parole. E’ stato raccolto da Marco Baroni nel 2007.

http://www.corpora.unito.it/index.php

Corpora Unito.it: raccolta di corpora di vario genere, tra i quali uno di italiano scritto prodotto da nativi, un learner corpus
internazionale di italiano e la più grande raccolta di testi di italiano scritto etichettati e liberamente accessibili.

SketchEngine:

sito che offre strumenti di analisi di corpora in varie lingue, tra cui anche l’italiano. E’ in grado di generare concordanze, word sketches che riassumono il comportamento collocazionale e grammaticale di una parola, nonché sketch differences particolarmente utili per la differenziazione tra quasi-sinonimi.

http://www.sspina.it/cit/cit.htm

CIT - Corpus dell’italiano televisivo curato da Stefania Spina dell’Università per Stranieri di Perugia.

http://www.collins.co.uk/books.aspx?group=153

Bank of English: uno dei più ampi corpora della lingua inglese moderna fondato da J. Sinclair e successivamente ampliato fino a raggiungere attualmente circa 524 milioni di parole.

http://www.cambridge.org/elt/corpus/international_corpus.htm

Cambridge International Corpus: vastissimo database dell’inglese parlato e scritto, proveniente da fonti eterogenee, quali quotidiani e riviste, conversazioni informali, radio e televisione. Ha raggiunto attualmente il miliardo di parole.

Form di ricerca

Main Menu

Corsi

Laboratorio Itals newsletter

Contatti

Corsi

Servizi

Certificazioni

Altri progetti

Ricerca

Contatti

Form di ricerca

Main Menu

Corsi

Accesso utente

Laboratorio Itals newsletter

Contatti

Corsi

Servizi

Certificazioni

Altri progetti

Ricerca

Contatti