import pandas as pd
import json
from numpyencoder import NumpyEncoder
import re
from collections import Counter

# Carica il file Excel con le risposte del questionario
df = pd.read_excel("questionario anonimo.xlsx", index_col=False)

# Mostra tutte le colonne (domande) del questionario
df.columns

Index(['Di che genere sei?', 'Quanti anni hai?', 'Qual è la tua occupazione?',
       'Che rapporto hai con la città di Bari?',
       'Per te partecipare a incontri di aggregazione sociale, eventi culturali e dibattiti politici è: ',
       'A cosa è dovuta, se c’è, la tua difficoltà nella partecipazione?',
       'Bari offre spazi di aggregazione sociale e culturale? ',
       'Ritieni che Bari sia una città a misura di persone Under 30? ',
       'Quale spazio sogni a Bari?', 'Frequenti questi spazi? ', 'Quali?',
       'Quanto ti senti accoltə negli spazi che frequenti?',
       'Ritieni che questi spazi conoscano e siano attenti ai bisogni della comunità che li frequentano?',
       'Come giudichi il dialogo tra questi spazi?',
       'Partecipi a eventi culturali a Bari?',
       'A che tipo di eventi partecipi?',
       'Secondo te che tipo di eventi culturali mancano in città e quali tra questi vorresti a Bari?',
       'Condividi l’intento e le finalità delle recenti ordinanze per «contrastare gli effetti negativi della movida»?',
       'Come pensi che vadano gestiti questi fenomeni? ',
       'Hai mai sentito parlare di Scomodo?',
       'Se sì, ti piacerebbe una Redazione di Scomodo a Bari?',
       'Se avessi un desiderio per Bari, quale sarebbe? ',
       'Come incide sul tuo benessere il rapporto che hai con la città di Bari? ',
       'Sei a Bari, sei felice?', '@dropdown'],
      dtype='object')

# Indici delle colonne per grafici a distribuzione (risposte singole)
plotDist = [
    0,   # Di che genere sei?
    1,   # Quanti anni hai?
    2,   # Qual è la tua occupazione?
    3,   # Che rapporto hai con la città di Bari?
    19,  # Hai mai sentito parlare di Scomodo?
    20,  # Se sì, ti piacerebbe una Redazione di Scomodo a Bari?
    23   # Sei a Bari, sei felice?
]

# Indici delle colonne con scale Likert (valutazioni su scala)
# Nota: i valori per queste scale non sono ancora definiti, 
# quindi vengono raggruppate separatamente
likert = [
    4,   # Per te partecipare a incontri di aggregazione sociale...
    6,   # Bari offre spazi di aggregazione sociale e culturale?
    7,   # Ritieni che Bari sia una città a misura di persone Under 30?
    11,  # Quanto ti senti accoltə negli spazi che frequenti?
    12,  # Ritieni che questi spazi conoscano e siano attenti ai bisogni...
    13,  # Come giudichi il dialogo tra questi spazi?
    14,  # Partecipi a eventi culturali a Bari?
    22   # Come incide sul tuo benessere il rapporto che hai con la città di Bari?
]

# Indici delle colonne con risposte multiple (da processare diversamente)
toHotEncode = [
    5,   # A cosa è dovuta, se c'è, la tua difficoltà nella partecipazione?
    15,  # A che tipo di eventi partecipi?
    18   # Come pensi che vadano gestiti questi fenomeni?
]

# Dizionario principale che conterrà tutti i dati per i grafici
toPlot = {}

# Processa le domande con distribuzione semplice
# Per ogni domanda, conta quante volte appare ogni risposta
for colIdx in plotDist:
    colName = df.columns[colIdx]  # Nome della domanda
    # value_counts() conta automaticamente le occorrenze di ogni valore
    toPlot[colName] = dict(df[colName].value_counts())

# Crea una sezione separata per le domande Likert
# Queste vengono raggruppate perché potrebbero aver bisogno di elaborazione speciale
toPlot["likert"] = {}
for colIdx in likert:
    colName = df.columns[colIdx]
    toPlot["likert"][colName] = dict(df[colName].value_counts())

def fromOneHotToCount(col_name):
    """
    Funzione che elabora le colonne con risposte multiple.
    
    Come funziona:
    1. Prende una colonna con risposte del tipo "Opzione A, Opzione B, Opzione C"
    2. Separa ogni risposta usando la virgola come separatore
    3. Conta quante volte appare ogni singola opzione
    
    Parametri:
    col_name: nome della colonna da processare
    
    Ritorna:
    Un dizionario con opzione -> numero di volte che è stata scelta
    """
    # Counter è uno strumento che conta automaticamente le occorrenze
    counter = Counter()

    # Esamina ogni risposta nella colonna
    for val in df[col_name]:
        # Controlla se la risposta è una stringa (non vuota o NaN)
        if isinstance(val, str):
            # Separa le risposte multiple usando una regex specializzata
            # Il pattern ', (?=[A-Z])' separa alla virgola solo se seguita da maiuscola
            # Questo evita di separare erroneamente nei nomi composti
            items = re.split(r', (?=[A-Z])', val)
            # Aggiunge ogni elemento separato al contatore
            counter.update(items)

    # Converte il Counter in un dizionario normale
    return dict(counter)

# Applica la funzione di elaborazione a tutte le domande a scelta multipla
for colIdx in toHotEncode:
    colName = df.columns[colIdx]
    # Usa la funzione personalizzata per contare le risposte multiple
    toPlot[colName] = fromOneHotToCount(colName)

# Esporta tutti i dati elaborati in formato JSON
with open ("toPlot.json", "w", encoding="utf-8") as f:
    json.dump(toPlot, f, indent=4, cls=NumpyEncoder, ensure_ascii=False)

# Esporta le colonne relative agli spazi di aggregazione
# Colonne: "Quale spazio sogni a Bari?", "Frequenti questi spazi?", 
#          "Quali?", "Quanto ti senti accoltə negli spazi che frequenti?"
df[[df.columns[8], df.columns[9], df.columns[10], df.columns[11]]].to_excel("spazi.xlsx", index=False)

# Esporta le colonne relative agli eventi culturali
# Colonne: "Secondo te che tipo di eventi culturali mancano...", 
#          "Condividi l'intento... delle ordinanze...", "Come pensi che vadano gestiti..."
df[[df.columns[16], df.columns[17], df.columns[18]]].to_excel("eventi.xlsx", index=False)

# Esporta tutti i desideri unici per Bari in un file di testo
with open ("sogni.txt", "w", encoding="utf-8") as f:
    # Prende la colonna 21 ("Se avessi un desiderio per Bari, quale sarebbe?"),
    # rimuove i valori vuoti e duplicati, poi scrive ogni risposta su una riga
    for line in list(df[df.columns[21]].dropna().unique()):
        f.write(line + "\n")

Analisi del Questionario su Bari¶

Obiettivo¶

Struttura del Dataset¶

1. Importazione delle Librerie¶

2. Caricamento dei Dati¶

3. Esplorazione delle Colonne¶

4. Categorizzazione delle Domande¶

Domande per Grafici a Distribuzione¶

Domande con Scala Likert¶

Domande a Scelta Multipla¶

5. Elaborazione dei Dati per la Visualizzazione¶

6. Elaborazione delle Domande a Scelta Multipla¶

Applicazione della Funzione alle Domande Multiple¶

7. Esportazione dei Dati per la Visualizzazione Web¶

8. Esportazioni Specializzate¶

8.1 Analisi degli Spazi di Aggregazione¶

8.2 Analisi degli Eventi Culturali¶

8.3 Raccolta dei Sogni e Desideri¶

Conclusione¶

File di Output:¶

Struttura dei Dati JSON:¶