Wikipedia:Bar/Discussioni/ChatGPT e Wikipedia

ChatGPT e Wikipedia


Mi domandavo se il tanto pubblicizzato ChatGPT poteva essere usato per Wikiepdia, l'idea che mi è venuta e chiedere la riformulazione di un testo. Il testo è la sezione "Le spy story" della sezione Alfred_Hitchcock#Periodo_britannico. La domanda in italiano è stata: "Mi serve la riformulazione del seguente testo:" e poi ho incollato il testo (avevo inzialmente provato a mettere il link della pagina ma dice che non può riformulare da link....).

La risposta è stata la seguente: «Nel 1934, Hitchcock firmò un contratto per cinque film con la Gaumont British Picture Corporation, dove lavorava Michael Balcon con cui aveva già collaborato in passato. I suoi primi film, "L'isola del peccato" e "Ricco e strano", non furono compresi dalla critica britannica e fallirono commercialmente, impedendogli di continuare su quella strada. Tuttavia, con "L'uomo che sapeva troppo" nel 1934, ottenne un successo straordinario che gli fece guadagnare l'apprezzamento della critica e del pubblico. Questo fu seguito da una serie di thriller di successo, conosciuti come "The classic thriller sextet". La fama che ne derivò attirò l'attenzione dei produttori americani e Hitchcock si trasferì negli Stati Uniti nel 1939, con la sua famiglia, dopo aver girato 23 film in Inghilterra.»

Il risultato, conoscendo l'origine, non mi sembra eclatante, non so se facendo lo stesso in inglese si ottengono risultati migliori.

Mi chiedevo però se una "rielaborazione del genere" sia accettabile su Wikipedia e se non ci sono comunque altre implicazioni sull'uso di questi sistemi. --ValterVB (msg) 13:14, 4 feb 2023 (CET)[rispondi]

probabilmente bisogna aggiungere sia in Aiuto:Riformulare un testo che in Wikipedia:Traduzioni (che contiene già un indicazione simile) che l'uso di ChatGPT e simili strumenti di "intelligenza artificiale" non vanno usati per la redazione di voci dell'enciclopedia (segnalo che iniziano ad esistere strumenti per identificare se il testo è prodotto da una AI o scritto da un essere umano). --valepert 13:25, 4 feb 2023 (CET)[rispondi]
Ma dal punto del copyright come sarebbe un testo prodotto non dall'utente ma da ChatGPT o in generale da un'AI? --Meridiana solare (msg) 13:43, 4 feb 2023 (CET)[rispondi]
Concordo sull'inserire il divieto proposto da valepert: vietiamo i traduttori automatici, perché dovremmo permettere testi scritti da AI? Come facciamo a sapere da dove prendono le informazioni? Come facciamo a sapere che non siano tratte da wikipedia? Senza contare l'enorme problema del copyright del testo, che, da quel che avevo capito, è dell'azienda titolare del software.
Per identificare i testi prodotti in questo modo non si potrebbe far lavorare qualche bot? ----FriniateArengo 14:24, 4 feb 2023 (CET)[rispondi]
In realtà però in questo caso il testo "dovrebbe" essere riformulato non scritto ex novo, difatti confrontando la versione originale con quella generata dalla IA non mi pare si sia inventato niente ma ha proprio riformulato/sintetizzato --ValterVB (msg) 14:30, 4 feb 2023 (CET)[rispondi]
@ValterVB ma se anche il nuovo testo è sotto copyright dell'azienda, a che serve? ----FriniateArengo 14:37, 4 feb 2023 (CET)[rispondi]
Mi correggo: da qui pare che il testo non sia sotto diritto d'autore dell'azienda, ma semplicemente che la parafrasi di un AI non sia abbastanza originale da costituire una rielaborazione a norma di legge. Su siti americani si leggono cose diverse (compreso il fatto che questi testi sarebbero senza copyright), dunque non è escluso che vi possano essere differenze tra un paese e un altro. In ogni caso finché la cosa non viene chiarita meglio lascerei un divieto: si tratta comunque di testi di bassa qualità e che per il problema dell'irrintracciabilità delle fonti avrebbero comunque un possibile utilizzo molto limitato su wp. ----FriniateArengo 14:46, 4 feb 2023 (CET)[rispondi]
Sul fatto che "la parafrasi di un AI non sia abbastanza originale da costituire una rielaborazione" ho qualche dubbio. La riformulazione che ha fatto del testo sopra non la considererei non originale, è cambiata abbastanza, tieni anche conto che è un testo breve, probabilmente con testi più lunghi la riformulazione potrebbe essere ancora maggiore. --ValterVB (msg) 15:21, 4 feb 2023 (CET)[rispondi]
Comunque se i testi rielaborati da IA non li accetteremo mi sa che bisogna aggiungere questo fra gli strumenti di controllo, dovrebbe rintracciare i testi generati da IA ma servono almeno 1000 caratteri. --ValterVB (msg) 15:47, 4 feb 2023 (CET)[rispondi]
al momento mi sembra che i tribunali statunitensi sostengono che "there is no copyright protection for works generated solely by a machine" tuttavia il problema è che nell'input (ma anche nell'output) possono venire prodotti materiali che violano i diritti intellettuali (si veda qui in cui si è riusciti a ricostruire interamente immagini protette dal diritto d'autore). --valepert 16:14, 4 feb 2023 (CET)[rispondi]
Io non sono d'accordo con il blocco. Se il materiale in questione non è coperto da copyright, e viene adeguatamente munito di fonti, non vedo perché non possa essere inserito. La qualità non è eccezionale, ma del resto anche buona parte del testo dell'enciclopedia non lo è. Il motivo per cui le traduzioni automatiche non sono permesse è la loro palese infima qualità, oltre che una generale mancanza di coerenza sintattica dovuta alle varie differenze linguistiche, cosa che sinceramente non vedo nell'operato di questa IA. --IlPoncioHo sbagliato? 02:16, 5 feb 2023 (CET)[rispondi]
Come dicevo, non darei per scontato che in Italia e Svizzera sarà adottata l'interpretazione dei tribunali Usa. ----FriniateArengo 09:36, 5 feb 2023 (CET)[rispondi]
sul copyright ho chiesto direttamente all'AI :-D La risposta è stata "OpenAI, as the creator and owner of the technology and training data used to generate responses, holds the copyright on the generated text. However, it's important to note that OpenAI's API services, including the use of GPT-3, is governed by the terms of service and user agreement, which includes limitations on the use and distribution of the generated text.". Naturalmente la valutazione, per quanto comprensibile che chi ci ha lavorato cerchi di tirarla dalla parte sua, si scontra con il fatto che il copyright è riconosciuto (soprattutto in diritto latino) all'autore, che è persona, dunque non può essere macchina (né animale) in quanto priva di capacità giuridica. Guardando al diritto di mentalità anglosassone ha il suo peso la differenza fra il "diritto di autore" che usiamo noi e il "diritto di copia" (copyright) che usano loro, sono impostazioni diametralmente opposte, ma alla fine la tutela è riconosciuta all'autore anche lì. Con l'AI non c'è un soggetto che possa dirsi autore perché la macchina non è longa manus dell'autore fino al punto che questi possa prevedere con esattezza la precisa forma (ciò che il diritto protegge) con cui la macchina si esprimerà: se uso il computer per scrivere, io autore so cosa il computer produrrà, e se gli dico di usare "siccome che" il computer me lo scriverà malgrado l'errore, l'AI no. L'AI - se correttamente impostata - non produrrà errori di lingua, e ove li producesse sarebbe male impostata dunque non produrrebbe ciò che l'autore intendeva producesse. La forma è il vero punto, perché il diritto protegge la forma, non le idee che ci sono dietro. L'Ai non è un autore. Perché a monte, se fosse prevedibile quella precisa forma, non sarebbe una vera AI in quanto si limiterebbe solo a pescare in qualche repository delle frasi precompilate, e a valle, proprio per la natura dell'AI, l'interazione dell'utente agisce sui parametri (mode, model, temperature, length) di fatto personalizzando l'output, per cui come minimo l'utente partecipa della creazione.
Io non vedo alcun tipo di problema a utilizzare testo AI-generated, e non lo vedo neanche da un punto di vista contenutistico, perché ai nostri fini vale quanto la famosa importazione di testi in PD (dalla British 1911) che si fece nella primissima fase di Wikipedia. Sono testi, testi che non ledono diritti di terzi e che forniscono le informazioni che ci servono, punto. Non c'è nessuna analogia con il testo prodotto da traduttore automatico, che noi vietiamo semplicemente perché (soprattutto per fasi precedenti della storia di questi strumenti) il risultato era il più delle volte linguisticamente insufficiente, tale da richiedere un ulteriore intervento umano per correggere la lingua; e di questi edit ne abbiamo avuto a bizzeffe.
Tutto questo per il testo, le immagini sono altra faccenda e non è così scontato, anzi è abbastanza improbabile che si possa. -- g · ℵ → Gianfranco (msg) 10:30, 5 feb 2023 (CET)[rispondi]
Sembrerebbe che "Sparrow", la IA di Google prevista per quest'anno, possa anche citare le fonti. --ValterVB (msg) 10:46, 5 feb 2023 (CET)[rispondi]
Ma le cita giuste? Perché mi fanno notare che pure ChatGPT le cita, ma inventandosele. Dunque abbiamo un programma di intelligenza artificiale che falsifica programmaticamente (è il caso di dirlo) le fonti, è una chiara ed esplicita violazione del secondo pilastro. Secondo me oltre a un divieto dovremmo proprio mettere su un filtro. Poi per l'uso (forse legittimo) della riformulazione ok, permettiamolo a chi si occupa di patrolling: admin e rollbacker. ----FriniateArengo 12:15, 5 feb 2023 (CET)[rispondi]
Ho il sospetto che questa sia una discussione con data di scadenza: IMO fra un paio d'anni non saremo in grado di distinguere fra un testo umano e uno AI. --Bramfab (msg) 13:48, 5 feb 2023 (CET)[rispondi]
anche nel 2016 Google sosteneva di avere quasi raggiunto una "human-level accuracy" con le traduzioni automatiche. non mi pare che ancora siamo arrivati a quei livelli (viene magari sempre più difficile riconoscere una traduzione, ma alla fine si riesce a discriminare). --valepert 13:53, 5 feb 2023 (CET)[rispondi]
@Bramfab se i testi AI hanno fonti falsificate, un motivo in più per inserire un filtro: credo che la cosa peggiore sia avere testi formalmente corretti, con fonti in apparenza presenti, ma che in realtà non si sa da dove vengono. ----FriniateArengo 15:12, 5 feb 2023 (CET)[rispondi]
[@ Friniate]non é un problema di AI, ma di rimanere sul pezzo pretendere sempre fonti autorevoli
[@ Valepert] ne riparleremo nel 2025, anno in cui credo che l' utilizzo dello AI per testi non sarà più così gratuito, ma i loro testi se saranno riconoscibili lo saranno per minori problematiche sintattico grammaticali rispetto alla media delle voci nuove sui viventi

--Bramfab (msg) 18:15, 5 feb 2023 (CET)[rispondi]

@Bramfab questo è chiaro, ma se abbiamo un programma di intelligenza artificiale che sappiamo che mette fonti in modo casuale nei testi da esso prodotti, perché dovremmo A. permettere di usarlo B. evitare di usare i tool che permettono di individuare tali testi? ----FriniateArengo 18:24, 5 feb 2023 (CET)[rispondi]
Perché come mostrato dall'esempio sopra è facilissimo verificare se la fonte esiste oppure no e Wikipedia si base sulla verificabilità delle fonti. Viceversa permette una buona riformulazione di frasi --Bramfab (msg) 09:15, 7 feb 2023 (CET)[rispondi]
Anche se sarà difficile rimanere al passo con i tempi, una pagina di aiuto/linea guida sull'argomento andrebbe concordata, e potrebbe essere a metà strada tra il proibizionismo e il permissivismo di cui state dibattendo. Esempio: per me potrebbe essere utile in tutti quei casi in cui c'è da riassumere, per esempio ai fini di WP:Trama (vedi Categoria:Organizzare - cinema). Viceversa, andrebbe formalmente vietato per la creazione di voci da zero, a maggior ragione se con fonti inventate dall'AI. --Michele aka Mickey83 (msg) 15:17, 7 feb 2023 (CET)[rispondi]
Anch'io come Mickey83 mi trovo da un lato attratto dalle possibilità della AI e dall'altro spaventato..penso ad esempio al mio contributo su wikipedia; da un lato c'è l'aggiornamento dei premi letterari e delle bibliografie e questo potrebbe benissimo farlo un BOT di diciamo "seconda generazione" come ChatGPT (qualora beninteso si risolva il problema delle fonti inventate che mi fa pensare al vecchio Skynet, bisognerà mettere dei paletti e proibire al'intelligenza artificiale sia di inventarsi fonti, sia di cercarli da sito non affidabili tipo blog..), dall'altro c'è la creazione di nuove voci (scrittori per lo più) e in quel caso mi piacerebbe mettere alla prova l'A.I. nel namespace Bozza se non altro per la creazione dello "scheletro" della voce (template bio, paragrafi biografie, opere, premi, note ecc.. ecc..) cosa che potrebbe alleggerire il lavoro di noi volontari...--GabrieleBellucci (msg) 10:20, 10 feb 2023 (CET)[rispondi]
C'è qualche discussione anche su en.wikipedia: Ricerca --ValterVB (msg) 14:30, 10 feb 2023 (CET)[rispondi]

Rientro) Segnalo discussione correlata: Discussioni aiuto:Pagina di discussione#ChatBot sulle pagine di discussione- --Meridiana solare (msg) 13:22, 23 feb 2023 (CET)[rispondi]

Buonasera, ho appena finito di giocare un'oretta con l'AI, e vorrei riportare alcuni risultati che penso che almeno per ora taglino la testa al toro. Ho chiesto se conosceva il film "Il Marchese del Grillo". Ha risposto affermativamente e in un italiano impeccabile, fornendomi diverse informazioni e un giudizio critico sul film. A quel punto sono sceso nei dettagli, e là sono iniziati i guai. Gli ho chiesto se conosceva il personaggio di Aronne Piperno, e mi ha risposto di si, e che l'attore che l'aveva interpretato in maniera formidabile era Paolo Stoppa. Gli ho fatto notare l'errore, e gli ho detto che Stoppa interpreta un prelato. La sua risposta è stata che era vero, e che interpretava un cardinale. Dopo avergli detto di nuovo che aveva sbagliato, si è corretto di nuovo (ogni volta si scusa, è molto educato) e mi ha scritto che in realtà nel film interpretava il vescovo di Terracina.(?) A quel punto mi sono arreso, e gli ho scritto che l'attore in questione era Riccardo Billi. La risposta è stata stupefacente: ha detto che non lo conosceva. A quel punto dopo un paio di minuti ho inserito il link all'articolo di wikipedia, e lui ha risposto subito dicendo che in realtà si era appena informato, ora sapeva chi fosse, e me lo ha spiegato. Ecco le ultime righe del nostro dialogo: Io: "Esatto. Vedo che abbiamo le stesse fonti". Lui (Lei?): "Sì, sembra proprio di sì! Le informazioni che ti ho fornito sono tratte da fonti pubbliche e accessibili a tutti, come Wikipedia." Da questo si deduce:
  • L'AI al momento è inaffidabile come sorgente di informazioni, non solo perché non cita le fonti, ma perché dà informazioni sbagliate. Quindi non è un importatore di testi, come si potrebbe pensare a prima vista, ma dietro c'è un algoritmo che deve ancora "convergere" probabilmente tramite l'interazione con l'utente.
  • Usando wikipedia come fonte, l'AI diventa non utilizzabile per definizione.
Saluti a tutti/e Alessandro57 (msg) 19:55, 25 feb 2023 (CET)[rispondi]
Da oggi su bing ho quella che dovrebbe essere la nuova versione, alla stessa domanda su "Aronne Piperno" mi ha risposto correttamente. non so se perché è stato corretto precedentemente da te o questa versione è più avanzata. --ValterVB (msg) 21:37, 25 feb 2023 (CET)[rispondi]
Penso perché ha imparato, è una caratteristica delle AI. In realtà da qualche parte ho letto che l'applicazione è gratuita perché gli utenti in questo modo la allenano. Se ci fai caso accanto a ogni domanda ci sono due manine tipo social media: se clicchi quella col pollice in giù compare una finestra dove devi scrivere cosa era sbagliato e come correggerlo. Alessandro57 (msg) 21:50, 25 feb 2023 (CET)[rispondi]
Lo stesso argomento in dettaglio: Wikipedia:Bar/Discussioni/ChatGPT e Wikipedia 2.