Sistemi Informativi Gestionali at Polytechnic Institute Of Bari | Flashcards & Summaries

Select your language

Suggested languages for you:
Log In Start studying!

Lernmaterialien für sistemi informativi gestionali an der Polytechnic Institute of Bari

Greife auf kostenlose Karteikarten, Zusammenfassungen, Übungsaufgaben und Altklausuren für deinen sistemi informativi gestionali Kurs an der Polytechnic Institute of Bari zu.

TESTE DEIN WISSEN
Quali sono gli approcci del text mining?
Lösung anzeigen
TESTE DEIN WISSEN
  • Bag of words: parole o gruppi di parole sono considerati una caratteristica dei documenti, ma l’ordine delle parole e la grammatica non sono considerati. poco costoso e con dati pronti per il machine learing
  • syntactic parsing: sono definite le regole sintattiche per costruire le frasi, i gruppi di parole o le parole sono etichettati (es. aggettivi, nomi ecc), metodo molto costoso e aventi modelli molto complessi dipendenti dal linguaggio. È un analisi approfondita tra gli elementi di un corpo
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è il topic modelling? unsupervised o supervised? Perchè?
Lösung anzeigen
TESTE DEIN WISSEN
Il topic modèllini assegna i documenti agli argomenti. La classificazione è spesso non supervisionata, poichè chiediamo al computer di dare un senso al contenuto dei documenti, un popolare topic modèllini è il LDA che si basa su alcune cose : sappiamo che il documento è un mix di argomenti latenti, ad esempio 60% argomento a e 40% argomento B, un argomento è un insieme di parole che lo descrivono, sappiamo o dobbiamo indovinare quanti argomenti ci sono nei set di documenti. Si utilizza un approccio probabilistico poichè un documento può appartenere a più argomenti è una parola può avere diversi significati
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è TFIDF?
Lösung anzeigen
TESTE DEIN WISSEN
(term frequency and inverse document frequency) Tecniche per processare e dunque analizzare un testo, fornisce un’ indicazione sulle più frequenti parole in un corpo. L’idf misura l’ importanza del testo in base a documenti dimili, ha lo scopo di alleggerire i termini frequenti ma meno importanti e assegnare importanza a quelli più rari.
tf-Idf di un termine i in un documenti d si misura: ( numero di volte in cui i appare nel documento d) diviso per in numero di termini nel documento d tutto questo per il logaritmo naturale del numero di documenti fratto il numero dei documenti che contengono il termine i. 

Lösung ausblenden
TESTE DEIN WISSEN
Che cosa è il machine learning?
Lösung anzeigen
TESTE DEIN WISSEN
È l’apprendimento automatico, ossia la capacità di computer e macchine di acquisire l e proprie conoscenze senza la necessità di dare regole esplicite e di estrarre modelli da dati grezzi. Gli algoritmi di machine learning risolvono i problemi costruendo modelli, che permettono al computer di prendere decisioni. 
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è la tokenisation?
Lösung anzeigen
TESTE DEIN WISSEN
Tecniche per processare e dunque analizzare il testo. L’obbiettivo è dividere il testo in elementi significativi, per esempio possiamo dividere il documento in capitoli, sezioni, paragrafi, parole, sillabe. Possiamo utilizzare i token per creare un dataset ordinato dove ogni riga riguarda un token . Un token può essere una singola parola (unigeam) due parole (bigram) ho di n parole (n-gram)

Lösung ausblenden
TESTE DEIN WISSEN
cosa è la sentimental analysis ?
Lösung anzeigen
TESTE DEIN WISSEN
  • Mira ad estrarre le intenzioni emotive dei documenti ad esempio felicità sorpresa , sentimenti negativi e/ o positivi. Si basa sulla linguistica, psicologia e PNL. Un approccio semplice per classificare i documenti è quello di utilizzare lessici soggettivi. Il pacchetto tidtext contiene diversi di questi lessici che sono basati sulla classificazione di unigrammi.
  • Bing: lessico soggettivo ci interessa solo per capire la polarità di un documento, quindi classifica gli unigrammi in positivi o negativi.
  • Afinn: va oltre la classificazione Binaria di bing, ma assegna un punteggio di negatività o positività che va da -5 a +5
  • NRC: partendo dalle emozioni primarie di plutchik che sono 8 (es. rabbia, gioia, paura, tristezza, disgusto, sorpresa, fiducia)  le altre emozioni derivano dalle 8 primaria. 
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è il Natural languiate processing (NLP)?
Lösung anzeigen
TESTE DEIN WISSEN
È un settore importante di un dominio di ricerca interdisciplinare chiamato linguistica computazionale, esso fornisce dati per trasformare ed elaborare i dati di testo, in modo da identificare modelli in questi dati , è particolarmente importante per il syntactic parking che per il bag of words .
ci sono tre approcci principali 
1. pos tagging (part of speech): le Parole sono classificate in base al ruolo che svolgono nella frase: es. articolo, sostantivo ecc.
2. full parsing: analisi completa, vengono identificati due elementi : 1 grammatica di circoscrizione: brevi frasi che trasmettono un risultato. Grammatica di dipendenza: relazioni tra parole ( es. un soggetto e un oggetto dipendono da un verbo)
3. shallow parsing: analisi superficiale, meno costosa di quella completa è più veloce, sono identificate frasi semplici e brevi, le dipendenze ambigue e poco chiare vengono lasciate irrisolte.
 
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è la lemmatisation?

Lösung anzeigen
TESTE DEIN WISSEN
Tecniche per processare e analizzare il testo, i token individuali sono ridotti alla loro forma base chiamata lemma:
- am, are, is -> be
-  cars -> car
-arrived -> arrive

le tecniche di lemmatisation normalizzano il testo ed è un processo molto utilizzato nella sentiment analysis
si utilizza il pacchetto textstem in cui abbiamo già eliminato le stopword e i numeri dagli unigrammi

Lösung ausblenden
TESTE DEIN WISSEN
Differenza ta modelli matematici e modelli statistici:
Lösung anzeigen
TESTE DEIN WISSEN
  •  Modello matematico: basato su semplici regole probabilistiche per catture meccanismi specifici (es. erdós renyi )
  • modello statistico: la rete osservata è considerata come una delle possibili realizzazioni di un processo, un modello che mira ad adattarsi ai dati osservati (potenza esplicativa di alcuni variabili)
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è la co-word analysis?
Lösung anzeigen
TESTE DEIN WISSEN
È l’approccio bags of words, dove non viene considerato l’ordine delle parole, ma possiamo visualizzare le parole che sono presenti nella stessa frase, paragrafo o articolo o, più in generale, nel documento
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è il cosine similarit nel text mining?
Lösung anzeigen
TESTE DEIN WISSEN
Non lo so
Lösung ausblenden
TESTE DEIN WISSEN
Cosa è il text mining? 
Lösung anzeigen
TESTE DEIN WISSEN
il text mining è una tecnica che utilizza l’elaborazione del linguaggio naturale per trasformare il testo libero, non strutturato, di documenti/ database in dati strutturati e normalizzati.
Lösung ausblenden
  • 1493 Karteikarten
  • 359 Studierende
  • 0 Lernmaterialien

Beispielhafte Karteikarten für deinen sistemi informativi gestionali Kurs an der Polytechnic Institute of Bari - von Kommilitonen auf StudySmarter erstellt!

Q:
Quali sono gli approcci del text mining?
A:
  • Bag of words: parole o gruppi di parole sono considerati una caratteristica dei documenti, ma l’ordine delle parole e la grammatica non sono considerati. poco costoso e con dati pronti per il machine learing
  • syntactic parsing: sono definite le regole sintattiche per costruire le frasi, i gruppi di parole o le parole sono etichettati (es. aggettivi, nomi ecc), metodo molto costoso e aventi modelli molto complessi dipendenti dal linguaggio. È un analisi approfondita tra gli elementi di un corpo
Q:
Cosa è il topic modelling? unsupervised o supervised? Perchè?
A:
Il topic modèllini assegna i documenti agli argomenti. La classificazione è spesso non supervisionata, poichè chiediamo al computer di dare un senso al contenuto dei documenti, un popolare topic modèllini è il LDA che si basa su alcune cose : sappiamo che il documento è un mix di argomenti latenti, ad esempio 60% argomento a e 40% argomento B, un argomento è un insieme di parole che lo descrivono, sappiamo o dobbiamo indovinare quanti argomenti ci sono nei set di documenti. Si utilizza un approccio probabilistico poichè un documento può appartenere a più argomenti è una parola può avere diversi significati
Q:
Cosa è TFIDF?
A:
(term frequency and inverse document frequency) Tecniche per processare e dunque analizzare un testo, fornisce un’ indicazione sulle più frequenti parole in un corpo. L’idf misura l’ importanza del testo in base a documenti dimili, ha lo scopo di alleggerire i termini frequenti ma meno importanti e assegnare importanza a quelli più rari.
tf-Idf di un termine i in un documenti d si misura: ( numero di volte in cui i appare nel documento d) diviso per in numero di termini nel documento d tutto questo per il logaritmo naturale del numero di documenti fratto il numero dei documenti che contengono il termine i. 

Q:
Che cosa è il machine learning?
A:
È l’apprendimento automatico, ossia la capacità di computer e macchine di acquisire l e proprie conoscenze senza la necessità di dare regole esplicite e di estrarre modelli da dati grezzi. Gli algoritmi di machine learning risolvono i problemi costruendo modelli, che permettono al computer di prendere decisioni. 
Q:
Cosa è la tokenisation?
A:
Tecniche per processare e dunque analizzare il testo. L’obbiettivo è dividere il testo in elementi significativi, per esempio possiamo dividere il documento in capitoli, sezioni, paragrafi, parole, sillabe. Possiamo utilizzare i token per creare un dataset ordinato dove ogni riga riguarda un token . Un token può essere una singola parola (unigeam) due parole (bigram) ho di n parole (n-gram)

Mehr Karteikarten anzeigen
Q:
cosa è la sentimental analysis ?
A:
  • Mira ad estrarre le intenzioni emotive dei documenti ad esempio felicità sorpresa , sentimenti negativi e/ o positivi. Si basa sulla linguistica, psicologia e PNL. Un approccio semplice per classificare i documenti è quello di utilizzare lessici soggettivi. Il pacchetto tidtext contiene diversi di questi lessici che sono basati sulla classificazione di unigrammi.
  • Bing: lessico soggettivo ci interessa solo per capire la polarità di un documento, quindi classifica gli unigrammi in positivi o negativi.
  • Afinn: va oltre la classificazione Binaria di bing, ma assegna un punteggio di negatività o positività che va da -5 a +5
  • NRC: partendo dalle emozioni primarie di plutchik che sono 8 (es. rabbia, gioia, paura, tristezza, disgusto, sorpresa, fiducia)  le altre emozioni derivano dalle 8 primaria. 
Q:
Cosa è il Natural languiate processing (NLP)?
A:
È un settore importante di un dominio di ricerca interdisciplinare chiamato linguistica computazionale, esso fornisce dati per trasformare ed elaborare i dati di testo, in modo da identificare modelli in questi dati , è particolarmente importante per il syntactic parking che per il bag of words .
ci sono tre approcci principali 
1. pos tagging (part of speech): le Parole sono classificate in base al ruolo che svolgono nella frase: es. articolo, sostantivo ecc.
2. full parsing: analisi completa, vengono identificati due elementi : 1 grammatica di circoscrizione: brevi frasi che trasmettono un risultato. Grammatica di dipendenza: relazioni tra parole ( es. un soggetto e un oggetto dipendono da un verbo)
3. shallow parsing: analisi superficiale, meno costosa di quella completa è più veloce, sono identificate frasi semplici e brevi, le dipendenze ambigue e poco chiare vengono lasciate irrisolte.
 
Q:
Cosa è la lemmatisation?

A:
Tecniche per processare e analizzare il testo, i token individuali sono ridotti alla loro forma base chiamata lemma:
- am, are, is -> be
-  cars -> car
-arrived -> arrive

le tecniche di lemmatisation normalizzano il testo ed è un processo molto utilizzato nella sentiment analysis
si utilizza il pacchetto textstem in cui abbiamo già eliminato le stopword e i numeri dagli unigrammi

Q:
Differenza ta modelli matematici e modelli statistici:
A:
  •  Modello matematico: basato su semplici regole probabilistiche per catture meccanismi specifici (es. erdós renyi )
  • modello statistico: la rete osservata è considerata come una delle possibili realizzazioni di un processo, un modello che mira ad adattarsi ai dati osservati (potenza esplicativa di alcuni variabili)
Q:
Cosa è la co-word analysis?
A:
È l’approccio bags of words, dove non viene considerato l’ordine delle parole, ma possiamo visualizzare le parole che sono presenti nella stessa frase, paragrafo o articolo o, più in generale, nel documento
Q:
Cosa è il cosine similarit nel text mining?
A:
Non lo so
Q:
Cosa è il text mining? 
A:
il text mining è una tecnica che utilizza l’elaborazione del linguaggio naturale per trasformare il testo libero, non strutturato, di documenti/ database in dati strutturati e normalizzati.
sistemi informativi gestionali

Erstelle und finde Lernmaterialien auf StudySmarter.

Greife kostenlos auf tausende geteilte Karteikarten, Zusammenfassungen, Altklausuren und mehr zu.

Jetzt loslegen

Das sind die beliebtesten sistemi informativi gestionali Kurse im gesamten StudySmarter Universum

Information Systems 301

Rhodes University

Zum Kurs
Information systems.

University of the Free State

Zum Kurs
Information systems

University of Stellenbosch

Zum Kurs
organizzazione dei sistemi informativi aziendali

University of Pavia

Zum Kurs
Information System ch1

Walter Sisulu University for Technology and Science

Zum Kurs

Die all-in-one Lernapp für Studierende

Greife auf Millionen geteilter Lernmaterialien der StudySmarter Community zu
Kostenlos anmelden sistemi informativi gestionali
Erstelle Karteikarten und Zusammenfassungen mit den StudySmarter Tools
Kostenlos loslegen sistemi informativi gestionali