È un settore importante di un dominio di ricerca interdisciplinare chiamato linguistica computazionale, esso fornisce dati per trasformare ed elaborare i dati di testo, in modo da identificare modelli in questi dati , è particolarmente importante per il syntactic parking che per il bag of words .
ci sono tre approcci principali
1. pos tagging (part of speech): le Parole sono classificate in base al ruolo che svolgono nella frase: es. articolo, sostantivo ecc.
2. full parsing: analisi completa, vengono identificati due elementi : 1 grammatica di circoscrizione: brevi frasi che trasmettono un risultato. Grammatica di dipendenza: relazioni tra parole ( es. un soggetto e un oggetto dipendono da un verbo)
3. shallow parsing: analisi superficiale, meno costosa di quella completa è più veloce, sono identificate frasi semplici e brevi, le dipendenze ambigue e poco chiare vengono lasciate irrisolte.