Tecnologia AI

Qwen 3.5: Alibaba alza la posta sull’AI agentica e promette più potenza a costi più bassi

Qwen 3.5 arriva con una parola chiave che pesa: agentic. Noi l’abbiamo tradotta in cose misurabili: tool calling, contesto, modalità thinking e listini per token. Il punto è capire dove finisce la promessa e dove iniziano i numeri.

Ricostruzione tecnica Listini per token Tool calling e agenti Contesto fino a 1M Impatto per aziende Guida pratica API

Pubblicato il: Lunedì 16 febbraio 2026 alle ore 17:04. L’articolo riflette le informazioni disponibili alla data di pubblicazione e potrebbe non includere sviluppi successivi che incidono su pricing, disponibilità e configurazioni operative. Eventuali aggiornamenti sono riportati nell’Update log.

Ultimo aggiornamento: Venerdì 6 marzo 2026 alle ore 09:16. L’aggiornamento può includere interventi non sostanziali (revisione formale, correzioni, impaginazione o ottimizzazioni) e non implica necessariamente modifiche ai fatti riportati. Gli aggiornamenti di contenuto legati a nuovi dettagli tecnici sono indicati nell’Update log.

Contenuto verificato Verificato secondo i nostri standard di fact-checking e con una ricostruzione basata su documentazione tecnica e listini ufficiali. Policy correzioni

Per questa ricostruzione, abbiamo lavorato su documentazione tecnica e listini API aggiornati, più note di rilascio e schede modello dei repository ufficiali. Abbiamo verificato il quadro dichiarativo e la cronologia dell’annuncio con la copertura di Reuters, tenendo le fonti esterne come conferma e non come guida.

Negli ultimi mesi abbiamo visto “copiloti” ovunque, ma qui Alibaba prova a spostare la conversazione di un gradino. Qwen 3.5 non viene presentato come un altro modello che risponde bene, viene presentato come un modello che vede, decide e agisce. La promessa è pesante: più potenza e costi più bassi. Noi ci siamo andati a prendere la parte che conta davvero, quella che resta quando il comunicato finisce: pricing a scaglioni, contesto 1M in versione hosted, tool calling integrato e un modello open-weight da 397B-A17B.

Mappa rapida: Qwen 3.5 in quattro punti

Punto Cosa accade Il segnale da notare Impatto pratico
Il rilascio: Qwen 3.5 e Qwen3.5-Plus Alibaba pubblica un modello open-weight da 397B-A17B e spinge una versione hosted con funzioni “da produzione” pensate per agenti. Il lessico cambia: tool calling, GUI, visione e contesto 1M diventano feature centrali. La competizione si sposta dal chatbot al sistema che esegue workflow.
Agentic AI, tradotta in strumenti Il modello è costruito per chiamare strumenti e orchestrare azioni, con stack pronti e API compatibili OpenAI. Nei documenti ufficiali la tool use è trattata come via consigliata, non come demo. Integrare un agente richiede meno attrito, e la governance diventa progettazione.
Contesto lungo e soglie di prezzo Qwen3.5-Plus arriva con contesto da 1.000.000 token e listini a scaglioni legati alla lunghezza dell’input. Superata la soglia 256K il costo per milione token cambia nettamente, segnale di compute reale. Budget e latency dipendono dal design del workflow, non solo dal modello scelto.
Cosa cambia per aziende e utenti Per le aziende significa agenti che interrogano sistemi e chiudono task. Per gli utenti è un assistente che opera dentro app e interfacce. L’enfasi è sulle azioni e su capacità visive e non su sola conversazione. Servono guardrail: permessi, approvazioni e auditing per non trasformare l’automazione in rischio.

Tip: la tabella è scorrevole. Su mobile scorri con il dito a destra e a sinistra per vedere tutte le colonne.

Agentic, tradotto
Tool calling e azioni su strumenti: la parola chiave diventa architettura operativa.
Contesto 1M
La versione hosted spinge il contesto a 1.000.000 token, e cambia i workflow possibili.
Prezzi a scaglioni
Il costo cresce con la lunghezza dell’input. La fascia che scegli fa la differenza sul budget.
Guida pratica
In fondo trovi timeline, tabella prezzi e FAQ per capire subito come provarlo e cosa aspettarti.
Qwen 3.5: Alibaba spinge sull’AI agentica con più potenza a costi più bassi
Tecnologia

Qwen 3.5 mette insieme visione, tool calling e contesto lungo: l’idea è un assistente che agisce e non solo che risponde.

Trasparenza: fonti e metodo

Questo pezzo nasce da una cosa semplice: separare il marketing dalle leve operative. Abbiamo ricostruito Qwen 3.5 partendo da ciò che si può verificare oggi, 16 febbraio 2026: documentazione e listini di Alibaba Cloud, note di rilascio del repository ufficiale su GitHub e scheda modello su Hugging Face. Il quadro delle dichiarazioni e del posizionamento lo abbiamo tenuto sotto controllo incrociandolo con Reuters.

Fonte principale: analisi diretta di documentazione tecnica e listini API, più repository e schede modello ufficiali (redazione).

Contesto essenziale: perché “agentic” conta più della sigla

Se negli anni scorsi la domanda era “quanto è bravo a scrivere”, oggi la domanda reale in azienda è un’altra: “quanto è bravo a portare a termine un compito senza costringere un umano a fare dieci passaggi manuali”. L’agentic AI è questo: un sistema che prende un obiettivo, spezza il lavoro in passi e usa strumenti per arrivare al risultato.

In questo contesto Qwen 3.5 non è solo un modello nuovo. È una proposta di stack: modello, tool calling, contesto lungo, integrazione API compatibile OpenAI e una versione hosted con feature “da produzione”. La promessa di Alibaba prende forma qui, nel tentativo di rendere naturale la transizione da chatbot a agente.

In breve

  • Qwen 3.5 arriva con una narrativa agentica: visione, tool calling e capacità di agire su workflow.
  • Qwen3.5-Plus è la versione hosted con contesto 1.000.000 token e funzioni integrate per produzione.
  • Il pricing è a scaglioni: superata una soglia di input il costo per milione token aumenta.
  • Agentic AI significa strumenti, permessi e auditing. Senza governance diventa un rischio operativo.

Qwen 3.5: la mossa di Alibaba sull’AI agentica

Qui la cosa da afferrare subito è la struttura dell’offerta. Alibaba gioca su due piani: un modello open-weight molto grande, Qwen3.5-397B-A17B, e una versione hosted, Qwen3.5-Plus, che punta a essere la scelta “default” per chi vuole agenti in produzione. L’idea è ridurre l’attrito di adozione: stessi concetti di API, tool calling in primo piano e prezzi pensati per essere letti da chi deve fare budget.

Nota: da qui in poi separiamo con rigore dichiarazioni e dati. Le promesse restano promesse fino a quando non diventano numeri o scelte di prodotto verificabili.

Sommario dei contenuti

Cosa è uscito oggi, in concreto

Qwen 3.5 arriva con due messaggi operativi. Il primo: una versione hosted, Qwen3.5-Plus, che mette insieme testo e input visivi, spinge sul contesto fino a 1.000.000 token e supporta tool calling integrato, includendo anche scenari legati a GUI e interazioni con interfacce. Il secondo: un modello open-weight da 397B con 17B attivi, pensato per chi vuole controllare il deployment e accetta il peso infrastrutturale.

La parte che spesso sfugge è che questa impostazione fa una cosa precisa: trasforma l’agente in un prodotto, non in un progetto. Se hai endpoint compatibili OpenAI, esempi ufficiali e parametri chiari per gestire thinking e tool call, la barriera d’ingresso si abbassa. Poi resta il lavoro vero, quello delle integrazioni, ma almeno lo stack smette di essere un foglio bianco.

Agentic AI spiegata senza scorciatoie

“Agentic” è una parola comoda e rischiosa. Comoda perché suona come progresso inevitabile. Rischiosa perché tende a far credere che basti un modello più forte per ottenere automazione affidabile. In realtà l’agentic AI è un sistema che vive di quattro pezzi: pianificazione, strumenti, memoria e controllo.

Pianificazione significa che il modello non risponde soltanto, decide il prossimo passo. Strumenti significa che esistono funzioni esterne con cui l’agente interagisce in modo strutturato. Memoria significa contesto e recupero di informazioni rilevanti, spesso via retrieval più che via prompt infinito. Controllo significa permessi, audit e un perimetro di azioni consentite. Qwen 3.5 è interessante perché prova a mettere tool calling e interazione con GUI al centro, quindi attacca due pezzi critici: strumenti e controllo del flusso.

Dichiarazioni e dati: dove regge la promessa

Partiamo dalle dichiarazioni, così chiariamo il quadro. Alibaba posiziona Qwen 3.5 come salto verso l’era agentica, con capacità visive pensate per scenari in cui l’assistente deve interpretare schermi, immagini o video e trasformare quell’input in azione. Dentro questa cornice viene rivendicato un miglioramento marcato a fronte di una riduzione dei costi rispetto alla generazione precedente e rispetto ai modelli di punta USA.

I dati verificabili che abbiamo sotto mano raccontano tre cose. La prima è architetturale: la serie 3.5 è descritta come ibrida con componenti di attenzione lineare e mixture-of-experts, un’impostazione coerente con l’obiettivo di alzare throughput e tenere sotto controllo latenza e costi. La seconda è di prodotto: Qwen3.5-Plus viene consigliato come modello general purpose e viene esplicitata la copertura su agent tasks, image e video understanding e interazioni GUI, con tool calling built-in. La terza è economica: il listino è aggressivo in fascia bassa ma cresce a scaglioni quando l’input supera la soglia.

Pricing: soglie, thinking e costi reali

Qui vale una regola: il prezzo “per token” è utile solo se capisci la soglia a cui si aggancia. Su Qwen3.5-Plus il listino globale è a scaglioni sulla dimensione dell’input nella singola richiesta. Questa scelta è un segnale forte: il contesto 1M è un’arma, ma non è una modalità “gratis”.

SKU Fascia input per richiesta Input (per 1M token) Output (per 1M token)
Qwen3.5-Plus 0 < token ≤ 256K $0,40 $2,40
Qwen3.5-Plus 256K < token ≤ 1M $1,20 $7,20
Qwen3.5-397B-A17B 0 < token ≤ 256K $0,60 $3,60

Lettura pratica: se stai sotto 256K di input, Qwen3.5-Plus è nella fascia più “economica”. Se entri nella fascia 256K-1M paghi un’altra dinamica. Qui il consiglio operativo non è poetico: progetta il workflow per non usare 1M token quando bastano retrieval e chunking.

C’è un dettaglio che merita attenzione: in alcuni listini la modalità thinking costa di più rispetto alla modalità non-thinking, perché include token di ragionamento oltre alla risposta. Su Qwen3.5-Plus, nel listino globale, l’output risulta allineato tra thinking e non-thinking, quindi la leva è più su latenza e comportamento che sul prezzo immediato. Questo non significa che il ragionamento sia gratis, significa che è stato impacchettato in modo diverso.

Per le aziende: dall’assistente al workflow che esegue

Se sei in azienda la domanda non è “quanto è bravo il modello”. La domanda è “quanto costa farlo lavorare in modo controllabile”. L’agentic AI cambia il costo totale perché sposta la spesa: meno tempo umano su task ripetitivi, più investimento in integrazioni, sicurezza e osservabilità.

Qwen3.5-Plus, con tool calling built-in e API compatibili OpenAI, rende più semplice partire. La parte difficile resta la stessa: trasformare processi reali in strumenti robusti. Significa definire funzioni con input validati, permessi per ruolo, audit log su ogni tool call e un meccanismo di approvazione su azioni irreversibili. A quel punto l’agente diventa utile, perché lo puoi lasciare operare senza trasformare ogni task in un rischio di compliance.

Qui arriva la deduzione che facciamo noi, guardando struttura e listini. Alibaba sta cercando di spingere un modello agente come default enterprise, e il pricing a soglie suggerisce che vuole favorire workflow efficienti, non prompt monstre. Se ti organizzi con retrieval e tool call mirati, paghi poco e ottieni tanto throughput. Se trasformi il contesto lungo in dumping di dati, ti sposti nella fascia costosa e perdi parte del vantaggio.

Per gli utenti: azioni dentro app e interfacce

Per l’utente finale “agentic” diventa interessante quando smette di essere una parola e diventa un gesto. Il gesto è: “non spiegarmi come si fa, fallo”. Se il modello interpreta uno schermo e sa usare strumenti, può diventare una mano operativa su software, dashboard e flussi che oggi richiedono micro-task manuali.

Qui serve una distinzione netta: un agente è utile quando è affidabile, e l’affidabilità non è solo precisione linguistica. È capacità di verificare un’azione, gestire errori, fermarsi quando manca un permesso e chiedere conferma quando l’azione è irreversibile. Le capacità visive e GUI puntano proprio a questo livello, ma la qualità finale dipende da come viene costruito il loop e da che strumenti gli dai.

Come provarlo: API, tool calling e open-weight

Se vuoi provarlo in modo pragmatico, ci sono due strade. La prima è la via “managed”: API gestita con endpoint compatibili OpenAI e modello Qwen3.5-Plus. Qui puoi gestire il comportamento con parametri operativi come l’abilitazione del thinking mode e usare tool calling come parte del flusso.

La seconda è la via “controllo”: pesi open-weight e serving in casa. È una scelta per chi ha infrastruttura multi-GPU e vuole gestire latenza, privacy, logging e tool use in modo autonomo. Il costo per token cambia faccia: paghi hardware e operazioni, non fattura per chiamata, ma ti porti dietro complessità.

Suggerimento operativo: prima di inseguire il contesto 1M, misura il tuo workflow. Spesso la vera ottimizzazione sta nel progettare strumenti che fanno un pezzo di lavoro in modo deterministico e lasciare al modello le decisioni di orchestrazione.

Guida pratica: come provarlo oggi

Via API gestita

La via più rapida è l’API gestita. Il dettaglio pratico che cambia la vita agli sviluppatori è la compatibilità con gli SDK e i pattern OpenAI, perché ti permette di riusare client, middleware e osservabilità già in produzione. In questa modalità il consiglio è partire con un set di tool minimo, misurare errori e costi, poi allargare.

Tool calling e agenti

Qui è dove “agentic” smette di essere claim e diventa implementazione. Definisci strumenti con schema chiaro, limita le azioni possibili, logga ogni chiamata. Se devi integrare molti strumenti, usa un approccio standardizzato e non un collage di prompt. L’obiettivo è avere tool call spiegabili, riproducibili e auditabili.

Open-weight e deployment controllato

Se preferisci controllo totale, lavori con i pesi open-weight e un framework di serving. È la scelta tipica quando hai vincoli di dati, latenza o integrazione interna. Qui la domanda è infrastrutturale: hai risorse e competenze per mantenere un servizio stabile, scalabile e osservabile. Se sì, il vantaggio è enorme. Se no, la via managed è più sensata.

Nota sui costi: con pricing a scaglioni, la differenza tra un agente “snello” e un agente “verbose” si vede soprattutto sull’output. Se vuoi davvero spendere meno, progetta strumenti che riducono testo inutile e spostano lavoro su funzioni deterministiche.

Il commento dell’esperto

La cosa che ci interessa davvero, qui, non è il nome della versione. È la direzione: un vendor cloud che ti vende agenti, non solo modelli. Qwen3.5-Plus con tool calling integrato e contesto 1M sembra progettato per ridurre il numero di “pezzi esterni” necessari a costruire un agente credibile.

Il pricing a soglie racconta un’altra intenzione: far pagare di più chi usa il modello come storage di contesto e premiare chi progetta workflow efficienti. È una scelta razionale dal punto di vista compute. È anche una spinta culturale per gli sviluppatori: retrieval, caching e strumenti diventano parte del design, non ottimizzazioni tardive.

L’agentic AI, nel mondo reale, non si misura con un prompt. Si misura con error budget, permessi e log. Se Qwen 3.5 avrà impatto, lo vedremo nella capacità delle aziende di costruire tool layer puliti e nel modo in cui il mercato reagirà su prezzi e licenze. Il modello è la punta dell’iceberg. Il resto è ingegneria.

Questo è un commento editoriale: è una lettura basata su documentazione, listini e scelte di prodotto pubbliche, con deduzioni esplicitate quando servono.

A cura di Junior Cristarella.

Domande frequenti

Che cosa intendiamo per AI agentica?

Parliamo di sistemi che non si limitano a rispondere, ma pianificano e compiono azioni usando strumenti: chiamano API, eseguono funzioni, interrogano database, operano su interfacce. Il valore sta nel loop: capire obiettivo, scegliere il prossimo passo, verificare il risultato, correggere rotta.

Qwen 3.5 e Qwen3.5-Plus: che differenza c’è?

Qwen 3.5 include un modello open-weight (397B-A17B) eseguibile su infrastruttura propria e una versione hosted, Qwen3.5-Plus, pensata per produzione con contesto 1M e funzioni integrate per tool calling e uso agente.

Che significa contesto da 1 milione di token e quando conviene usarlo?

È la capacità di tenere in una singola richiesta una quantità enorme di input e storico. Conviene quando il compito richiede davvero continuità e coerenza su materiali lunghi o su un workflow esteso. Se stai facendo retrieval su documenti o knowledge base, spesso è più efficiente recuperare solo ciò che serve.

Tool calling integrato: cosa serve per collegarlo a dati e sistemi aziendali?

Serve definire strumenti con interfacce chiare, permessi e logging. In pratica: funzioni con schema, credenziali isolate, rate limit, controlli di output e un layer di autorizzazione. L’agente può essere potente solo quanto è pulito l’ambiente in cui lo fai agire.

Thinking mode: cos’è e come incide su costi e tempi?

È una modalità in cui il modello spende più token e più tempo per ragionare prima di rispondere. In API è gestibile con parametri operativi. Il punto pratico è decidere dove serve davvero ragionamento profondo e dove basta una risposta rapida, perché costi e latenza seguono quella scelta.

Quanto costa una richiesta “normale” con Qwen3.5-Plus?

Dipende da input, output e fascia di prezzo. Esempio: 100.000 token di input e 10.000 di output dentro la fascia fino a 256K. Con $0,40 per 1M input e $2,40 per 1M output il costo stimato è circa $0,04 + $0,024 quindi $0,064.

Posso eseguirlo on-prem e usarlo commercialmente?

Sì per la componente open-weight: la licenza consente uso commerciale. Il vincolo reale è l’infrastruttura, perché un modello di questa taglia richiede ambiente multi-GPU e una pipeline di serving ben fatta per tool use e contesto lungo.

Da dove si prova oggi, 16 febbraio 2026?

La strada più rapida è l’API gestita in Model Studio con endpoint compatibili OpenAI. In alternativa si può lavorare con i pesi open-weight usando framework di serving e costruire il layer agentico con scaffolding dedicati.

Timeline: apri le fasi e segui la logica

Tocca una fase per aprire i passaggi chiave. La timeline serve a orientarti anche se vuoi prendere decisioni operative su pricing, tool calling e governance.

  1. Fase 1 Annuncio e posizionamento: perché Alibaba insiste sugli agenti
    • Qwen 3.5 viene presentato come modello “visual agentic” e non come semplice LLM.
    • La promessa è doppia: salto di capacità e riduzione dei costi a parità di lavoro.
    • Il confronto dichiarato è con i modelli di punta USA che dominano il linguaggio enterprise.
    • La scelta di rilasciare anche pesi open-weight alza la pressione competitiva su licenze e prezzi.

    Perché conta: Quando un vendor accoppia API gestite e pesi open, sta puntando a diventare una piattaforma standard più che una singola feature.

  2. Fase 2 Tool calling: la parte che trasforma un modello in un agente
    • In Model Studio il tool calling è supportato nativamente e compare nei percorsi consigliati.
    • Qwen-Agent viene proposto come scaffolding rapido per costruire agenti con strumenti.
    • Il supporto a MCP aiuta a descrivere strumenti come server e non come integrazioni ad hoc.
    • Gli endpoint compatibili OpenAI riducono la frizione per chi ha già SDK e middleware.

    Perché conta: La svolta agentica è un problema di orchestrazione e affidabilità. Un buon modello diventa utile quando sa usare strumenti in modo controllabile.

  3. Fase 3 Contesto: 262K e 1M non sono numeri decorativi
    • Il modello open-weight arriva con contesto massimo 262.144 token quando lo servi con stack come vLLM o SGLang.
    • La versione hosted Qwen3.5-Plus spinge il contesto a 1.000.000 token con feature da produzione.
    • Il contesto lungo apre casi d’uso su documenti monolitici, log, knowledge base e storico operativo di un agente.

    Perché conta: Più contesto aiuta, ma sposta il baricentro su costo e sicurezza. Il contesto è potenza e superficie d’attacco nello stesso momento.

  4. Fase 4 Prezzi: la promessa “più potenza e meno costo” va letta per scaglioni
    • Qwen3.5-Plus è a scaglioni: fino a 256K l’input costa $0,40 per 1M token e l’output $2,40, oltre si sale a $1,20 e $7,20.
    • Il listino è legato alla lunghezza dell’input nella singola richiesta, dettaglio che cambia le stime.
    • Su Qwen3.5-Plus il prezzo output è allineato tra thinking e non-thinking nel listino globale, mentre su altre SKU la modalità thinking pesa di più.
    • Per workflow lunghi la leva reale diventa chunking, caching e retrieval mirato.
    • Il costo dell’output conta più dell’input quando l’agente produce report lunghi, codice o spiegazioni articolate.

    Perché conta: La riduzione dei costi si vede se il workflow resta nella fascia “economica”. Se vivi oltre la soglia, paghi per memoria e compute.

  5. Fase 5 Adozione in azienda: cosa serve per non farsi male
    • Permessi a grana fine: l’agente deve vedere solo ciò che serve e ogni azione deve essere autorizzata.
    • Audit e osservabilità: loggare tool call, input, output e risultati per ricostruire decisioni e incidenti.
    • Human-in-the-loop dove conta: approvazioni obbligatorie su pagamenti, cancellazioni e modifiche irreversibili.
    • Valutazione continua: test di regressione su prompt e strumenti ogni volta che cambi modello o listino.

    Perché conta: L’AI agentica porta ROI quando diventa affidabile come un servizio software. Il resto è demo che rischia di restare demo.

Chiusura

Qwen 3.5 mette pressione dove oggi fa più male: sul passaggio dalla conversazione all’azione. Alibaba prova a vendere un’idea semplice e difficile insieme: un agente che vede, chiama strumenti e lavora su contesti enormi con prezzi che sembrano fatti per entrare nei budget. La parte decisiva resta la stessa per tutti: tool layer pulito, permessi chiari e osservabilità. Se quella base regge, l’agentic AI smette di essere una parola e diventa una pratica.

Firma digitale di Junior Cristarella
Firma digitale del direttore responsabile

Approfondimenti correlati

Tecnologia

Il nostro hub sempre aggiornato: AI, cybersecurity, prodotti, piattaforme e innovazione, con analisi operative e focus sui numeri.

Apri la pagina hub

Update log

Registro degli aggiornamenti sostanziali: trasparenza su modifiche, correzioni e integrazioni informative.

  • Lunedì 16 febbraio 2026 alle ore 19:12: Inserita tabella prezzi e soglie di contesto per Qwen3.5-Plus e Qwen3.5-397B-A17B, distinguendo input e output.
  • Lunedì 16 febbraio 2026 alle ore 19:37: Aggiornata la sezione su tool calling e thinking mode con i parametri operativi usati nelle API compatibili OpenAI.
  • Lunedì 16 febbraio 2026 alle ore 19:55: Rafforzata l’analisi su cosa significa “agentic AI” in azienda: permessi, audit e gestione del rischio operativo.
Foto di Junior Cristarella
Autore Junior Cristarella Junior Cristarella segue quotidianamente l’evoluzione dell’AI generativa e dei modelli foundation: analisi tecnica, pricing, implicazioni operative per aziende e professionisti con un metodo di verifica basato su documentazione ufficiale e controllo incrociato dei dati pubblici.
Pubblicato Lunedì 16 febbraio 2026 alle ore 17:04 Aggiornato Venerdì 6 marzo 2026 alle ore 09:16