Zoeken in deze blog

Translate

Posts tonen met het label big data. Alle posts tonen
Posts tonen met het label big data. Alle posts tonen

woensdag 23 juli 2014

Venetië als tijdsmachine: Venice Time Machine Project

Volgens natuurwetenschappers is tijdreizen mogelijk. Er is in het verleden dan ook vaak over gefantaseerd, o.a. in film en literatuur. Gerealiseerd is het tot op heden nog nooit. De digital humanities dreigen hen nu in te halen.

Summary
The Venice Time Machine project promises to be a great leap forward for the digital humanities. Digitisation of archives lies at its heart in building and providing an information machine to reflect the evolution of a 1,000 years of history of the most unique city in the world.

Digitalisering


Digitale informatie neemt hand over hand toe maar vooral beredeneerd vanuit het heden, met de 21e eeuw als startpunt. Wat je nodig hebt voor een tijdsmachine om terug mee in de tijd te reizen, is digitale informatie over (en uit) het verleden. Op basis van oude kaarten kun je bijvoorbeeld 3D-simulaties mogelijk maken vanuit het verleden naar het heden. Daar zijn al succesvolle voorbeelden (tot en met apps op lokaal niveau over het veranderend straatbeeld) van.



Met behulp van digitalisering (kranten, boeken) komt steeds meer informatie over het verleden beschikbaar. Daarnaast zijn er nog altijd historici met hun navertelling (of simulatie c.q. extrapolatie) van het verleden op basis van veronderstellingen (weliswaar ondersteund door bronnen) in de vorm van monografieën en artikelen.
Archieven bleven tot nog toe bij achter bij digitalisering. Zij bieden echter twee onmisbare zaken: heel veel data (documenten) en informatiespecialisten (archivarissen).

Project: open data


Het belooft het grootste digitaliseringsproject ooit te worden: het Venice Time Machine Project. Kun je zogezegd een Google maps van het verleden maken? Of een Facebook van de middeleeuwen? Een van de oudste en meest complete historische archieven ter wereld wordt daarom ontwikkeld tot open data.
Waarom Venetië? De stad fungeerde eeuwenlang als belangrijkste brug tussen Oost en West. Daarnaast is het stadsarchief een van de meest complete ter wereld met een omvang van 80 kilometer.
Het project is ruim een jaar geleden in februari 2013 van start gegaan als een samenwerking tussen de universiteit van Ca' Foscari, de École Polytechnique Fédérale de Lausanne en het Archivio di Stato van Venetië. De Lombard Odier Foundation (1796) heeft zich daar nu recent bijgevoegd als financier vanwege de exemplarische wisselwerking tussen kunst, geschiedenis en wetenschap.

Informatie-tijdsmachine


Doelstelling is om een multidimensionaal model van Venetië en haar ontwikkeling te maken: meer dan duizend jaar cultureel erfgoed moet worden omgebouwd tot een virtuele tool om als het ware door de Venetiaanse geschiedenis te kunnen wandelen. Het project zal tevens fungeren om mogelijkheden te onderzoeken naar het museum van de toekomst. Venetië heeft als geen andere stad te leiden onder de gevolgen van toerisme: de stad is in feite één groot open luchtmuseum, maar als stedelijke samenleving nauwelijks levensvatbaar meer.
Naast primaire bronnen zullen tevens duizenden monografieën over de geschiedenis van de stad worden gescand en geïndexeerd. 'The information extracted from these sources will be organized in a semantic graph of linked data, and unfolded in space and time in an historical geographical information system.'


In Venetië komt ook een onderzoekscentrum - Digital Humanities Venice - voor deze unieke tijdsmachine, met ondersteuning van Telecom Italia als onderdeel van haar onderzoek naar de toekomstige werking van technologie (in wiens kantoor ook de huisvesting plaats zal vinden).

The Venice Time Machine aims to be a comprehensive simulation with the goal of reconstructing Venice's past, better understanding its present and anticipating its future. The ambitious program will focus on the digitization of archives and their durability over time, data mining and modeling of both past and current networks, and advanced data visualization such as 3D interactive maps and novel museographic experiences in Venice.

Technologie: Big data


De eerste uitdaging betreft een optimale workflow voor het digitaliseren of ocr'en. Sinds vorig jaar hebben ruim honderd onderzoekers en studenten allereerst de infrastructuur ontwikkeld: het sorteren van de archieven op formaat en het ontwerpen van de workflow voor de eigenlijke digitalisering. Het archief omvat circa tachtig kilometer aan documenten die systematisch dienen te worden gedigitaliseerd, getranscribeerd en geïndexeerd. Men verwacht hier tien jaar over te doen, ofwel 450 delen per dag.



Digitalisering is niet alleen systematisch scannen maar tevens het automatisch verwerken van de verschillende handschriften in diverse talen over verschillende eeuwen. Daarvoor is een nieuwe methode ontwikkeld die uitgaat van de structuur van een document: taal is tenslotte gestructureerde informatie. Het doel of de ontstaanscontext van een document (geboortecertificaat, administratie etc.) is dus in wezen belangrijker dan het handschrift zelf waarin het is geschreven: uit de vorm, volgt als het ware de inhoud.




Wat er dan nog rest (!) is het managen, ontsluiten en classificeren van big data. Ook hier is in het model rekening mee gehouden. De algoritmen voor automatische tekstherkenning zullen bijvoorbeeld worden aangepast naarmate er meer data beschikbaar komt en de databases van mensen en plaatsnamen groeien.

"The goal is to transform all of these records into a digital information database of the past", says Frédéric Kaplan, an EPFL professor leading the Venice Time Machine. "The good news is that Big Data is not a problem; it is part of the solution."

Relationele database


Het einddoel is één grote database bestemd voor onderzoek en educatie. Vanaf september 2014 zullen studenten van verschillende disciplines (van computerwetenschappen tot kunstgeschiedenis) een gezamenlijk Master programma bij de betrokken universiteiten kunnen doorlopen. In de eerste fase zal het onderzoek betrekking hebben op de historische banden met Europa.
Door al deze informatie te combineren, verwacht men grote delen van de stedelijke geschiedenis te kunnen reconstrueren: complete biografieën (personen en sociale groepen of netwerken), de politieke dynamiek en de fysieke ontwikkeling van de stad (geografie).

Nieuwe visie archieven


Het project belooft daarnaast ook een nieuwe visie op archieven te brengen: in plaats van de gebruikelijke somma van losse delen of aparte bestanden vormen deze in feite één geheel.

"The documents are intricately interweaved, telling a much richer story when they are cross-referenced", explains Raffaele Santoro, director of the Venice State Archives: "All of the documents here are somehow interconnected".

Archieven, zeker binnen de context van een stadsarchief als collectie, vormen aldus eigenlijk één grote relationele database met tal van dwarsverbanden.

Digital humanities


Een ding staat nu al vast: dit belooft het belangrijkste digitaliseringsproject ooit te worden. En niet alleen dat. Archieven vormen het centrale uitgangspunt ervan, in wezen de bron van (alle) informatie. In dat opzicht doet het enigszins denken aan het fameuze IBM-project met betrekking de koloniale archieven van Simancas (Spanje) halverwege de jaren tachtig van de vorige eeuw. Bij dat project ging het vooral om de techniek: het grootschalig scannen. Nu ligt de nadruk veel meer op de inhoud.
En dit alles onder het mom van de digital humanities, een gevleugelde term die tot nog toe niet veel meer inhoudt dan het samenbrengen van wetenschappers en data en het ontwikkelen van soms coole tools. Kaplan beschouwt de digital humanities daarentegen als niets minder dan een revolutie in de geesteswetenschappen, niet alleen vanwege de schaalvergroting, maar ook vanwege de multidisciplinaire aanpak. Niet langer de eenzame wetenschapper op zijn studeerkamer, maar teams van wetenschappers die ieder vanuit hun eigen vakgebied informatie aandragen en zo tot nieuwe inzichten hopen te komen.
Naast de vraag wat een brood kostte in 1434, vallen met een druk op de knop ook meer hypothetische kwesties beter te beantwoorden omdat vergelijkbare data voorhanden is. Hij verwacht dan ook dat een en ander tot een nieuw paradigma of keerpunt zal leiden, bijvoorbeeld de reconstructie van ontbrekende data.

Amsterdam en Venetië


In de Nederlands pers c.q. vakbladen heb ik nog bijna geen letter over dit project gelezen (op een klein berichtje na). En dat is dubbel zo merkwaardig. In 1991 was er in de hoofdstad nog de manifestatie Amsterdam-Venetië. In bijna alle belangrijke musea waren tentoonstellingen gewijd aan de twee steden aan het water met hun rijke maritieme geschiedenis. Het waren allebei zeevarende mogendheden, met ook nog eens min of meer hetzelfde aantal inwoners, te weten circa 200.000. Amsterdam zou ook meer bruggen en kanalen hebben dan Venetië.
Hun beider geschiedenis als maritiem rijk - gelegen aan het water, met een overzees imperium - vormde de kern van hun bestaan. Merkwaardig genoeg is er nog nooit een Nederlander geweest die hier een belangwekkend boek over heeft geschreven: slechts Britten als C.R. Boxer (The Dutch Seaborne Empire) en J.I. Israel (Dutch Primacy in World Trade) zagen dit als wezenskenmerk van de opkomst van de Republiek.

Vrouw op een kade te Venetië. Gesigneerd JKD maggio 1947: Mara Leggendo "Fuoco". Eigen collectie.

Hopelijk gaat het Venice Time Machine Project ook de Nederlandse academische wereld en de erfgoedsector aan het denken zetten, daar waar de discussies nu nog vooral gaan over het organiseren van een digitale infrastructuur (Clariah) of onduidelijke toezeggingen over het beter toegankelijk maken van (bestaande) archieven. Een echt uitdagende visie, zoals in het bovenstaande, ontbreekt tot nog toe geheel.


Bronnen:

maandag 31 maart 2014

Wie is de grootste historische persoon aller tijden?

Het is geen speciaal gezelschapsspel onder historici: wie is de beroemdste of grootste historische figuur ooit. Dit is eerder iets voor een quiz of spelletje of iets wat andere mensen graag willen weten. Hoe meet je dit tenslotte ook?

Data


Twee computerwetenschappers, Steven Skiena en Charles B. Ward, hebben aan de hand van data een nieuwe lijst samengesteld en ook nog eens uitgebreid in boekvorm toegelicht: Who's Bigger: Where Historical Figures Really Rank (Cambridge 2013) Zij hebben diverse metingen gedaan omtrent iemands reputatie en die samengevoegd tot een soort cöefficient.
Historici geven overwegend een persoonlijke mening, weliswaar op basis van iemands prestaties, maar toch. En welke zijn dan precies de prestaties van beroemde mensen als Hitler, Stalin of Marx? Het oplossen van de Duitse werkloosheid in de jaren dertig, het over de kling jagen van miljoenen mensen of het opkomen voor de rechten van de arbeider? Kortom: lastige materie waar historici zich tegenwoordig liever niet meer aan branden.

Methode


Belangrijkste bron voor de metingen (i.p.v. meningen) van Skiena en Ward vormt Wikipedia, aangevuld met diverse correctiemechanismen. Algoritmes zijn hun belangrijkste tool.
De pagina's of lemma's zijn gebruikt voor metingen inzake 'quantities that should correspond to historical significance.' Zo zegt de lengte van een lemma iets over iemands belangrijkheid, maar bijvoorbeeld ook het aantal lezers en links naar andere pagina's. Die gegevens zijn vervolgens samengevoegd m.b.v. een statistische methode: factoranalyse.
Tot slot is er ook nog gekeken in miljoenen gescande boeken op het voorkomen van namen, met name bij wijze van correctie ten opzichte van het heden. Anders zouden personen als Miley Cyrus of Barack Obama (111) onverantwoord hoog in de lijst zijn geëindigd. De data zijn verder op een aantal wijzen gecategoriseerd (sport, beroemdheden etc.): zie verder de uitvoerige website met alle data.

De lijst: top 50

  1. Jezus
  2. Napoleon
  3. Mohammed
  4. William Shakespeare
  5. Abraham Lincoln
  6. George Washington
  7. Adolf Hitler
  8. Aristoteles
  9. Alexander de Grote
  10. Thomas Jefferson
  11. Hendrik VIII
  12. Charles Darwin
  13. Elizabeth I
  14. Karl Marx
  15. Julius Caesar
  16. Koningin Victoria
  17. Maarten Luther
  18. Jozef Stalin
  19. Albert Einstein
  20. Christofer Columbus
  21. Isaac Newton
  22. Karel de Grote
  23. Theodore Roosevelt
  24. Wolfgang Amadeus Mozart
  25. Plato
  26. Lodewijk XIV
  27. Ludwig van Beethoven
  28. Ulysses S. Grant
  29. Leonarda da Vinci
  30. Augustus
  31. Carl Linnaeus
  32. Ronald Reagan
  33. Charles Dickens
  34. Paulus (apostel)
  35. Benjamin Franklin
  36. George W. Bush
  37. Winston Churchill
  38. Dzenghis Khan
  39. Carolus I (Charles I)
  40. Thomas Edison
  41. Jacobus I (James I)
  42. Friedrich Nietzsche
  43. Franklin D. Roosevelt
  44. Sigmund Freud
  45. Alexander Hamilton
  46. Mahatma Gandhi
  47. Woodrow Wilson
  48. Johan S. Bach
  49. Galileo
  50. Oliver Cromwell

Enkele conclusies


De hele exercitie is gedaan 'to understand and interpret the past' op een nieuwe manier: digitale tijden vragen zogezegd om andere meetinstrumenten. Ook meer traditionele historici zullen daar mee moeten leren leven. En tenslotte ligt de hele canon-hausse ook al weer enige tijd achter ons.
De top 50 overziende miste ik persoonlijk vooral de Britse admiraal Horatio Nelson, voor wie slechts een schamele plaats 219 rest. De enige nog levende persoon in de top 50 is George W. Bush wiens prestaties bijvoorbeeld hoger worden ingeschat op historische schaal dan Winston Churchill. De voormalig president staat overigens tegenwoordig vooral bekend als schilder, waarmee hij overigens (vast onbewust) een parallel creëert met Churchill. Binnenkort krijgt Bush zelfs een heuse tentoonstelling in zijn eigen bibliotheek.

George W. Bush aan het werk, achter zijn ezel.

Creatief


Opvallend hoog genoteerd (4) staat William Shakespeare, vormgever van de Engelse taal; geen geringe prestatie overigens. En ook de introductie van het 16e-eeuwse religieuze schisma in de Westerse wereld door Maarten Luther (17) valt nog immer niet te onderschatten. Johannes Gutenberg daarentegen staat op plaats 328: wellicht dat de uitvinder van de boekdrukkunst in digitale tijden op minder sympathie kan rekenen?
Interessant is verder om te zien dat creativiteit van kunstenaars en wetenschappers hoog scoort op de lijst. Dat lijkt mij zeker een winstpunt ten opzichte van meer traditioneel gehuldigde standpunten van historici omtrent het primaat van politieke en militaire geschiedenis. Dat geldt eveneens voor de opname van twee vrouwen in de top, zij het dat ze nog niet de top-10 halen. De enige andere vrouw in de top 100 is overigens Joan d'Arc (95).

Te pro-westers


De lijst vertoont vooralsnog een sterke Angelsaksische bias, mede vanwege de oorsprong van Wikipedia, maar ook wegens het exclusieve gebruik van de Engelstalige pagina's door de onderzoekers. Dit resulteert ook anderszins in een nogal pro-Westerse, pro-Amerikaanse, pro-Britse uitslag.
Daarmee is het wellicht toch geen goede volledige reflectie van nieuwe tijden, maar eerder een tussenstand van veranderende tijden - en meer bepaald volgens de nieuwe Wikipedia-norm. Voor alle duidelijkheid: de lijst (en het boek) is veel langer en dus komen historisch belangrijke personen als Boedha (101953) of Confucius (134) wel degelijk voor.

Waar blijven de Nederlanders? 

Er is op het thuisfront goed nieuws en slecht nieuws. Vincent van Gogh staat op nummer 1 in de lijst van moderne kunstenaars en Rembrandt van Rijn op 4 bij de traditionele kunstenaars.
Verder is het even zoeken naar Willem van Oranje die natuurlijk als William the Silent wordt opgevoerd: plaats 690. Dat is een plaatsje achter Britney Spears ('Oops, I did it again')- als ultieme vorm van belediging wellicht, hoewel Miley Cyrus daar tegenwoordig nog geschikter voor is.
Antonie van Leeuwenhoek staat op 695 en Christiaan Huygens op 715. Huygens wordt overigens mede opgevoerd als 'writer of early science fiction': dat was nieuw voor mij, maar blijkt niet onjuist vanwege zijn laatste werk Cosmotheoros. Johan Cruyff staat op 2907, een plaatsje achter acteur Steve McQueen (geen slecht gezelschap, lijkt mij).

Foutmarge


Michiel de Ruyter wordt merkwaardig genoeg niet geclassificeerd; waarschijnlijk vanwege een technisch mankement: dat krijg je al gauw met computers. Maarten Tromp staat met een score van 2.644 op plaats 12263. De score van De Ruyter is beduidend beter en net iets lager dan Cruyff: 3.690 om 3.576 ter vergelijking.
Tot slot wordt ook Nederland zelf, als land, geclassificeerd op de 41e plaats: achter Pakistan bijvoorbeeld. Gevoelsmatig zou ik eerder zeggen ergens tussen 20-30. Ik ken eerlijk gezegd geen beroemde Pakistanen, behalve enkele cricketers (om maar iets buitenissigs te noemen).
Maar Nederland staat bijvoorbeeld ook achter landen als Argentinië of Zuid-Korea. En met Canada op 4 en Brazilië op 18, ben ik van mening dat op het landenklassement nog wel het meeste af te dingen valt.

Bronnen

http://www.theguardian.com/books/2014/jan/30/whos-most-significant-historical-figure
http://www.newrepublic.com/article/115669/ranking-historical-figures-skiena-and-wards-whos-bigger-reviewed