L'analisi del sentiment multilingue è un processo basato sull'intelligenza artificiale che consiste nell'estrazione del sentiment da dati contenenti diverse lingue. È ottenuto attraverso modelli di apprendimento automatico in lingua nativa costruiti individualmente per le diverse lingue. Per sviluppare questi modelli viene raccolto un corpus molto vario di dati etichettati manualmente per ogni lingua. I processi chiave includono:

  • Part-of-speech (POS) tagger: creato per identificare congiunzioni, frasi subordinate, preposizioni e sostantivi per ogni lingua.
  • Lemmatizzazione: elaborata per riconoscere e applicare le regole sulla coniugazione di nomi e verbi in base al sesso.
  • Costrutti grammaticali: processo costruito per definire negazioni e superlativi per identificare termini negativi e positivi.
  • Polarità: per determinare la polarità negativa e positiva delle parole, tra -1 e +1, che vengono raggruppate per fornire il sentiment complessivo dei dati.

Un modello in lingua nativa è importante perché ogni lingua ha la propria etimologia, che influisce sulle regole grammaticali. Ad esempio, non esiste il punto in tailandese, la scrittura dell'arabo procede da destra verso sinistra e il tedesco utilizza i pronomi neutri. Se viene impiegato un modello di apprendimento automatico inglese per analizzare dati multilingue, utilizzerà le regole applicabili a quella lingua fornendo informazioni errate. Ciò può portare a campagne di social e digital marketing deludenti o inefficaci che gravano sulle risorse e riducono il rendimento.