AIUCD 2017 Conference & 3rd EADH Day (24-28 January 2017)

Teresa Numerico: abstract

Dati versus interpretazione: un conflitto epistemico immaginario?*

di Teresa Numerico

* Vorrei ringraziare Geoffrey Rockwell per le utilissime osservazioni che ha fatto a una prima versione di questo intervento.

Questo intervento mira a smascherare l’idea dei dati come sono concepiti nella maggior parte della letteratura sui Big Data e in alcune delle pratiche del distant reading. Questa idea è basata sulla visione che i dati, particolarmente se rapresentati in maniera digitale, mantengano la loro purezza e non siano contaminate da nessun tipo di interpretazione soggettiva e che la loro spiegazione provenga direttamente da una loro interrogazione algoritmica.

Discuterò dell’argomento anche in relazione a una genealogia del concetto di dato digitale, conservato nella memoria del computer. Secondo Joseph Licklider – iniziatore dell’idea di fondo della conoscenza come di un progetto digitale fattibile – il flusso dei dati contenuto in un magazzino accessibile automaticamente non produce nessuna trasformazione sui dati e non fa nessuna differenza tra il contenuto della memoria e l’oggetto della rappresentazione conservato nelle sue partizioni (The future of libraries 1965)

Sosterrò la posizione, invece, che i dati esistono solo in relazione a una interpretazione che viene scelta e che è accessibile solo attraverso una accettazione implicita del significato che è costruito nella rappresentazione, cioè un significato che dipende dalla feticizzazione della quantificazione o di un altro modello generale nel quale intendiamo catturarne il senso e da cui l’interpretazione dipende direttamente, ma implicitamente (Drucker 2011, Rouvroy and Berns 2013).

Come è stato suggerito da Lewis Mumford negli anni ’70 del secolo scorso (1970) se decidiamo concentrare la nostra attenzione sulla quantità, stiamo trasformando la nostra capacità ermeneutica (Rockwell, Sinclair 2016). La teoria di un surplus di significato dovuto all’automazione computazionale dei dati, senza implicare una qualsiasi analisi soggettiva, consolida l’autonomia del sistema, sia tecnicamente che simbolicamente. Mostrerò che tale approccio implica una perdita di controllo sul sistema che è presentato come capace di governare tutti I processi dotati di senso, e la conseguente trasformazione dell’essere umano al fine di obbedire al sistema multifuzionale e autosufficiente.

Ci sono molte voci autorevoli, a cominciare dal famoso articolo di Anderson (2008) sulla fine della teoria, che sostengono che la teoria non sia più necessaria perché abbiamo così tanti dati che possiamo sostituire la spiegazione con la correlazione. Tutte queste voci basano la loro ipotesi sull’assunzione che i dati e la teoria (o meglio si dovrebbe forse usare termini come spiegazione o interpretazione nel contesto che ci riguarda) siano entità epistemiche molto diverse. Tuttavia se facciamo attenzione, possiamo facilmente argomentare contro questa distinzione adottando la posizione che è ben espresso nel titolo di un libro di un certo successo Raw data is an oxymoron (Gitelman 2013).

Se siamo d’accordo sul fatto che i dati bruti non esistono, cosa che è chiara nei progetti di digitalizzazione e distant reading che devono affrontare tutti i problemi ben noti sulla digitalizzazione come attività di traduzione, allora dobbiamo chiederci come ‘cuciniamo’ i dati e come li prepariamo per gli algoritmi che creano le correlazioni e le interpretazioni tra i dati.

La modellizzazione di grandi strutture sociali interpretative e il loro livello di spiegazione suggerito da Moretti (2007, 2013) richiede molto lavoro epistemologico prima di essere usato efficacemente. Se si tratta di un semplice cambio di prospettiva e di una ricerca strutturalista allora non ci sono problemi e nemmeno novità, si tratta della riproposizione di qualcosa che abbiamo già sperimentato con alterne fortune. Se invece vogliamo dire che gli strumenti computazionali e l’infrastruttura tecnologica rappresentano una vera novità negli studi e nei risultati di critica letteraria, allora dobbiamo fare maggiore attenzione. Il modello epistemico e computazione al quale ci rivolgiamo ha molta teoria inscritta implicitamente al proprio interno, teoria che dipende a volte dagli studi tradizionali dello studioso di humanities, altre volte dai vincoli del sistema tecnico adottato, ma al contrario il modello presuppone di essere una nuova prospettiva sulla lettura da lontano dei dati letterari. Abbiamo bisogno di un maggiore chiarimento sull’effetto di spiegazione del modello o della metodologia se vogliamo evitare il rischio di una petitio principii. Dobbimo accordarci che la correlazione e la ripetizione di certi schemi identificati possa costituire una forma di interpretazione e di spiegazione del testo, come è implicitamente suggerito da strumenti come Google Ngram; abbiamo bisogno di scegliere quali correlazioni hanno senso per il nostro modello rappresentazionale. Come suggerito da Gillespie (2014) abbiamo bisogno di una ricerca approfondita sulla capacità interpretativa degli algoritmi e delle azioni preparatorie che eseguiamo sui dati perché siano gestiti e interpretati dagli algoritmi.

Come suggerito da Stiegler (2015,2015a) attraverso l’influenza di Leroi-Gourhan, gli esseri umani si sono sempre definiti attraverso l’uso degli strumenti e in particolare attraverso i dispositivi per l’esternalizzazione della memoria. Questi strumenti tuttavia hanno una politica incorporata. Dobbiamo quindi comprendere quale sia la politica della rappresentazione computazionale della cultura e gli obiettivi a cui tendono gli studiosi con le loro metodologie.

Andrew Piper (2016) nell’editoriale di lancio del primo numero del Journal of cultural analytics afferma che: “we can think of computation as cultural studies’ pharmakon, as Plato intended it – a remedy that can also be a poison”. Possiamo interpretare veleno nei termini di una trasformazione disciplinare che non consente alle altre metodologie di sopravvivere nel nuovo scenario, senza nemmeno comprendere gli effetti epistemici opachi delle nuove prospettive e delle nuove interfacce adottate (Rockwell, Sinclair 2016, sul rapporto tra ermeneutica e dispositivi infrastrutturali). È curioso che il termine pharmakon sia centrale anche nella filosofia della tecnologia di Stiegler, il suo uso ci spinge ad analizzare le conseguenze delle trasformazioni disciplinari anche in termini di cambiamento dei rapporti di potere tra esperti di humanities e di strumenti tecnologici.

Evelyn Fox Keller (1991) sostiene che una volta adottata una metodologia o una modellizzazione trasformiamo definitivamente l’oggetto di osservazione scientifica. Applicando tale osservazione epistemologica al nostro campo è bene fare attenzione nello scegliere le interfacce, le infrastrutture computazionali le cui conseguenze sull’oggetto di ricerca possiamo solo vagamente prevedere e sulle quali non abbiamo concordato preventivamente. Dobbiamo essere consapevoli che la selezione dei metodi, con i connessi strumenti tecnici necessari per ottenere i risultati desiderati può definitivamente distruggere l’oggetto precedente dell’analisi letteraria imponendo un nuovo progetto di interfaccia, un modello per filtrarlo, tradurlo e comprenderlo. L’effetto ontologico sulla trasformazione della realtà dell’oggetto dell’investigazione scientifica è una questione di politica della ricerca e di posizionamento critico e etico degli studiosi.

Possiamo sperimentare liberamente ma dobbiamo comunque prendere in considerazione il significato e gli effetti degli strumenti tecnici che scegliamo di adottare per ottenere una nuova rappresentazione dell’oggetto di ricerca.

 

Data versus interpretation: an imaginary epistemic conflict?

This talk aims at unmasking the idea of data as conceived in most of the literature on Big Data, as well as in some of distant reading practices. This idea is based on the view that data, particularly if it is digitally represented, keeps its purity and is not contaminated by any kind of subjective interpretation, while its unique interpretation is that provided by the algorithmic interrogation of the data.

I will discuss the issue in relation to the original genealogy of digital data, preserved in computer memory. According to Joseph Licklider – originator of the concept of the fund of knowledge as a feasible digital project – the flow of data contained in an automatically accessible repository does not exhibit any special characteristic and does not substantially differ from the object of its representation (The future of libraries 1965).

I will argue, instead, that data exists only according to a chosen interpretation and that it is accessible only through an implicit acceptance of its built-in meaning – that is, a meaning that depends on the fetishization of quantification or of another general model in which we want to capture it (Drucker 2011, Rouvroy and Berns 2013).

As already suggested by Lewis Mumford in 1970 (The pentagon of power), if we decide to concentrate our attention on quantity, we are in the process of changing radically our hermeneutics (Rockwell and Sinclair 2016). The theory of a surplus of meaning due to the automation of the data, without involving any subjective analysis, consolidates the autonomy of the system, both technically and symbolically. I will show that this approach involves a loss of control over the system, which is presented as governing all meaningful processes, and the consequent transformation of the human being in order to fulfill the task of obeisance to the system.

There are a lot of authoritative voices starting from the famous paper by Anderson (2008) on the end of theory that claim that the theory is not necessary any more, because we have so much data that we can substitute explanation with correlation. All these voices base their hypothesis on the assumption that data and theory (or we should use the term interpretation in this context) are different epistemic entities. However if we pay some attention on the complex ontological and epistemic assumptions that implicitly support this hypothesis we can easily argue against this distinction by adopting the sentence advocated by the title of a book: “raw data is an oxymoron”(Gitelman 2013).

If we agree that raw data is impossible to achieve, which is especially clear within humanities digitalization projects, with all their problems of digitalization as a deep translation activity, than we need to ask some questions about how we ‘cook’ data and how we prepare it for the algorithms that create correlations and interpretations of the data. The level of model explanation suggested by Moretti (2007, 2013) needs a lot of epistemological clarification before being effectively used. The model has the theory embedded in it but pretends to be a new perspective on the literary data reading. We need to better clarify the explanatory effect of model/methodology if we want to avoid he risk of begging the question we suppose to answer, which is not a very scientific attitude. We have also to agree that correlation is a form of interpretation and explanation, as it is implicitly suggested by tools such as google ngram viewer; we seek for correlations that are interesting to us, for our representational model. As suggested by Gillespie (2014) we need a deep investigation on the interpretative stance of algorithms and on preparatory action over data in order for it to be managed by algorithms.

As suggested by Stiegler in various texts (2015, 2015a) following Leroi-Gourhan, human beings have always been defined by their use of tools, and in particular by the devices for the externalization of memory. These devices though have embedded policies. So we have to understand the policy of this computational representation of culture, and we have to understand the aim towards which scholars and their methodology are inclined.

Andrew Piper (2016) launching the first number of the Journal of Cultural Analytics affirmed that: “we can think of computation as cultural studies’ pharmakon, as Plato intended it – a remedy that can also be a poison”. We can interpret poison in terms of a disciplinary transformation that does not allow the past methodologies to survive in the new scenario, without precisely understanding the opaque epistemic effects of the brand new perspectives and tools (Rockwell and Sinclair 2016). It is curious that the term pharmakon is also central in Stiegler’s philosophy of technology; its use pushes us to analyze these disciplinary transformations, which imply also a change in power relationships between humanities and technologies experts.

Evelyn Fox Keller (1991) claimed that once adopted a methodology or a modelization strategy we transform definitely the object under observation. Applying this epistemological observation to our field of investigation, we need to be careful in choosing the interfaces, the computational infrastructures, whose consequences on the research objects we can at least vaguely foresee and on which we have not explicitly agreed. We have to be aware that the selection of methods, with its connected technical devices necessary to obtain the expected results can definitively delete the previous object of literary research by imposing a new interface design and model to filter, translate and understand it. The reality effect of transformation of the object under investigation is a matter of research policy as well as of ethical positioning of the scholars.

We can freely experiment, of course, but we need to take into account the meaning and the effects of the technical devices that we choose to adopt in order to obtain a new representation of the research objects.

 

References

Anderson, C. (2008).The End of Theory: The Data Deluge That Makes the Scientific Method Obsolete. Wired, published 23 July 2008: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory

Differences, Volume 25, Number 1, 201.

Drucker J. (2011) “Humanities Approaches to Graphical Display”, Digital Humanities quartely, Volume 5 Number 1, http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html

Gillespie T (2014) The relevance of algorithms. In: GillespieT, Boczkowski P and Foot K (eds) Media Technologies: Essays on Communication, Materiality, and Society. The MIT Press, Cambridge, MA

Gitelman L (ed) (2013) “Raw Data” is an oxymoron. MIT Press, Cambridge, MA

Keller Fox E. (1991) Conversazioni con Evelyn Fox Keller, Elèuthera, Milano.

Licklider JCR (1965) Libraries of the future. The MIT Press, Cambridge, MA

Moretti F. (2007) Graphs, Maps, Trees: Abstract Models for Literary History, Verso, London

Moretti F. (2013) Distant Reading, Verso, London.

Mumford L (1970) Myth of the Machine II: Pentagon of Power. Harcour, Brace Jovanovich

Piper A. (2016) There will be numbers. Journal of cultural analytics, 05.23.16 http://culturalanalytics.org/2016/05/there-will-be-numbers/

Rockwell G. Sinclair S. (2016) Hermeneutica, MIT Press, Cambridge, Mass.

Rooney E. and Weed E. (Eds.) In the Shadows of the Digital Humanities

Rouvroy A., Berns T. (2013) Gouvernamentalité algorithmique et perspectives d’emancipation: le disparate comme condition d’indivduation par la relation, Reseaux, Réseaux, 2013/1 n° 177, p. 163-196, http://www.cairn.info/revue-reseaux-2013-1-page-163.htm

Stiegler B. (2015) Platone digitale, Mimesis, Rome

Stiegler B. (2015a) La société automatique, 1 l’avenir du travail. Fayard, Paris