Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga Universitair Docent Informatica Universiteit Twente 4-4-2017 Presentatietitel: aanpassen via Beeld, Koptekst en voettekst
Agenda: wat doen we vandaag? Iets over mijzelf en de universiteit Gastles: zoeken in grote tekstbestanden wiskunde zonder getallen Inhoud uitleg (10 min) opdrachten + oplossingen (30 min) Terugblik samenvatting werkt het echt? Als ik praat, dan zijn jullie stil Bij vragen: vinger opsteken Opdrachten (straks!) in groepjes van 2
1. Marielle Stoelinga @ Universiteit Twente: Onderwijs testtechnieken software modelleertalen afstudeerscripties vandaag: 1st jaars vak Onderzoek bedenken nieuwe wiskunde beter besturen robots beter/sneller testen software Management team wetenschappers projectleider onderzoek buitenlandse congressen UT: na VWO of HBO; Saxion: lectoren
2. Gastles: zoeken in grote tekstbestanden Wiskunde Taalkunde ontmoet Wat gaan we doen? snel & efficiënt zoeken wiskunde zonder getallen 1ste-jaars vak universiteit Hoe gaan we te werk? Uitleg waarom zoeken in grote tekstbestanden methode 1: dom zoeken methode 2: slim zoeken 2. Opdrachten bespreking oplossingen 3. Samenvatting
Zoeken in grote tekstbestanden: waarom? Iemand een idee waarom zoeken reuze handig is ? 5
Zoeken in grote tekstbestanden: waarom? Personen zoeken op Facebook Google:100 miljoen zoektermen per dag Google:100 miljoen zoektermen per dag Twitter: 800.000 zoektermen per dag Moet zeer up-to-date zijn Conclusie: zoeken moet snel en efficient zijn 6
Zoeken in grote tekstbestanden: waarom? c o d k ananas cacao cocacola kokos pinacolada Woordzoekers oplossen Van links naar rechts Geen $$$, wel leuk 7
Zoeken in grote bestanden: hoe ZOEK ananas IN a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n s n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a a a a a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n a n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n a a a a n a s n a a n n s a s n a n a n a n a n a s n a s a n a s a n n a s n a s a s a n n a n a a n s a n a s n a s n a s a s a n a n a a n a s a n s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a a s a n a s a s a n n a n a s a n a s a n n a s n a a n a s a n a s a n a s a
Zoeken in grote bestanden: hoe Methode 1: dom zoeken Mensen zien woorden ineens Computers kunnen alleen letter voor letter zoeken s a s a n a n a n a s a n a s a n n a s n a a n a n a s a n a n a s a n a n a s a n a n a s Yesss! a n a n a s a n a n a s 9
Zoeken in grote bestanden: hoe kan het slimmer? Hoe kunnen we slimmer zoeken? s a s a n a n a n a s a n a s a n n a s n a foute letter Je ziet hier al een gedeelte van het goede woord. Dat kunnen we slim gebruiken! 10
Zoeken in grote bestanden: hoe kan het slimmer? Methode 2: slim zoeken Gebruik een diagram Lees letters uit tekst en volg de pijlen “Happy” bereikt = woord gevonden Geen “happy” bereikt = woord komt niet voor Goede letters naar : a a a a n a n a s a an ana anan anana s n n,s n,s s n,s Foute letters: Met n of s terug naar begin Slim: ananan Tot nu toe gelezen letters vh woord
Terminologie: wat is wat? an ana anan anana s n n,s n,s s n,s label letter Diagram automaat graaf met labels “Bolletje” Toestand Engels: state Pijl (toestands)overgang / transitie Engels: transition
Opdrachten: opdracht 1,2,4: in groepjes van 2 5 minuten werken dan bespreken opdracht 3: klassikaal
Opdracht 1: a a a a n a n a s s n n,s n,s s n,s s a n 1 2 3 4 5 a an 1 2 3 4 5 a an ana anan anana s n n,s n,s s n,s Zoek het woord ananas in onderstaande tekst Maak gebruik van het diagram Schrijf onder iedere letter de positie in het diagram waar je bent nadat je de letter gelezen hebt s a n
Opdracht 2: a, o a c c a c a o o c c a,o o Maak zelf het diagram voor het woord cacao Letters: c,a,o Oplossing: a, o a c c a c a o o c ca cac caca cacao c c a,o o MERK OP: laat de oplossing pas zien nadat de studenten eerst zelf gewerkt hebben! Dus: Begin met goede woord Schrijf gelezen letters bij elke positie Maak pijlen voor foute letters Controleer of je, bij elke positie, alle letters hebt 15
Opdracht 3 (klassikaal): Maak een diagram dat uitzoekt of een tekst OF het woord “pen” OF het woord “nep” OF allebei bevat Letters: e,p,n e p a e n p p pe pen e n p MERK OP: laat de oplossing pas zien nadat de leerlingen eerst zelf gewerkt hebben! e e p n e n ne nep n e 16
Opdracht 4: Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat De a’s hoeven niet achter elkaar te staan bv: a b b a b c c a b bevat 3 a’s Letters: a,b,c Oplossing: b,c b,c b,c a a a MERK OP: laat de oplossing pas zien nadat de leerlingen eerst zelf gewerkt hebben! 1 a 2 a’s 3 a’s 0 a‘s 17
Terugblik Samenvatting Zoeken in teksten is belangrijk bv Google, Twitter, Facebook, MS Word Met diagrammen kun je efficient zoeken in teksten Is dit wiskunde? Slimme / snelle methoden om problemen op te lossen Niet altijd met getallen Gebruikt Google dit echt? Google houdt methoden geheim Andere toepassingen (bv grep in Linux) gebruiken het zeker 18
Bedankt voor jullie aandacht & tot ziens! UT begeleidt ook profielwerkstukken 4-4-2017 Presentatietitel: aanpassen via Beeld, Koptekst en voettekst