Sulle domande a risposta aperta sono estratte tre tipologie di informazioni, utili a sintetizzare quanto espresso dagli utenti:
- Wordcloud con le parole più frequentemente utilizzate dagli utenti. Sebbene si basino esclusivamente sulle frequenze dei termini utilizzati, in molti casi comunicano bene la terminologia utilizzata e le aree di azione indicate.
- Keyword, identificate da un algoritmo di tipo TextRank, che comunicano i termini che acquistano più importanza nelle risposte date dagli utenti. Abbiamo limitati le keyword ai singoli sostantivi.
- Topic modeling, una tecnica basata in questo caso su Latent Dirichlet Allocation, che clusterizza i termini in gruppi che comunicano i diversi "concetti" espressi.
L'output del topic modeling è fornito mediante una visualizzazione interattiva, di cui descriviamo alcune caratteristiche:
- Sulla sinistra è mostrata una distanza tra i topic identificati. Cliccando su ognuno di essi, i termini più significativi di ogni topic vengono mostrati sulla destra. Si possono anche scorrere i topic attraverso il pannello posto in alto.
- Sulla destra appaiono i termini più significativi di ogni topic, ed è mostrata la frequenza di ogni termine osservata effettivamente a partire dalle risposte, e quella stimata nel topic.
- Cliccando su ciascuno dei suddetti termini, vengono interattivamente mostrati i topic nei quali questi compaiono. I topic appaiono più o meno grandi a seconda dell'importanza di quel termine nel topic stesso.