Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga Universitair Hoofddocent Informatica Universiteit Twente
2 Agenda: wat doen we vandaag? Iets over mijzelf en de universiteit Gastles: zoeken in grote tekstbestanden wiskunde zonder getallen Inhoud uitleg (10 min) opdrachten + oplossingen (30 min) Terugblik samenvatting werkt het echt? Pak schrift & pen Bij vragen: vinger opsteken Als ik praat, dan zijn jullie stil Opdrachten (straks!) in groepjes van 2
Onderwijs testtechnieken software modelleertalen afstudeerscripties vandaag: 1 st jaars vak Onderzoek bedenken nieuwe wiskunde beter besturen robots beter/sneller testen software Management team wetenschappers projectleider onderzoek buitenlandse congressen UT: na VWO of HBO; Saxion: lectoren 1. Marielle Universiteit Twente:
4 2. Gastles: zoeken in grote tekstbestanden Wiskunde ontmoet Taalkunde Wat gaan we doen? snel & efficiënt zoeken wiskunde zonder getallen 1 ste -jaars vak universiteit Hoe gaan we te werk? 1.Uitleg waarom zoeken in grote tekstbestanden methode 1: dom zoeken methode 2: slim zoeken 2. Opdrachten bespreking oplossingen 3. Samenvatting
5 Zoeken in grote tekstbestanden: waarom? Iemand een idee waarom zoeken reuze handig is ?
6 Zoeken in grote tekstbestanden: waarom? Personen zoeken op Facebook Google:100 miljoen zoektermen per dag Conclusie: zoeken moet snel en efficient zijn Zoeken in grote tekstbestanden: waarom? Twitter: zoektermen per dag Moet zeer up-to-date zijn Google:100 miljoen zoektermen per dag
7 Zoeken in grote tekstbestanden: waarom? Woordzoekers oplossen Van links naar rechts Geen $$$, wel leuk ananan ascoca cocada kokosa nanasc ananas cacao cocacola kokos pinacolada
a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n s n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a a a a a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n a n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n a a a a n a s n a a n n s a s n a n a n a n a n a s n a s a n a s a n n a s n a s a s a n n a n a a n s a n a s n a s n a s a s a n a n a a n a s a n s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a a s a n a s a s a n n a n a s a n a s a n n a s n a a n a s a n a s a n a s a 8 Zoeken in grote bestanden: hoe ZOEK ananas IN
9 Zoeken in grote bestanden: hoe s a s a n a n a n a s a n a s a n n a s n a Methode 1: dom zoeken a n a n a s Mensen zien woorden ineens Computers kunnen alleen letter voor letter zoeken a n a n a s Yesss!
10 Zoeken in grote bestanden: hoe kan het slimmer? s a s a n a n a n a s a n a s a n n a s n a foute letter Je ziet hier al een gedeelte van het goede woord. Dat kunnen we slim gebruiken! Hoe kunnen we slimmer zoeken?
Zoeken in grote bestanden: hoe kan het slimmer? Methode 2: slim zoeken Gebruik een diagram Lees letters uit tekst en volg de pijlen “Happy” bereikt = woord gevonden Geen “happy” bereikt = woord komt niet voor n,s aananaanananana Tot nu toe gelezen letters vh woord a s n,s a s a na na s n a Foute letters: Met n of s terug naar begin Slim: ananan Goede letters naar :
Opdrachten: opdracht 1,2,4: in groepjes van 2 5 minuten werken dan bespreken opdracht 3: klassikaal
Terminologie: wat is wat? n,s aananaanananana a s n,s a s a na na s n a “Bolletje” Toestand Engels: state Pijl (toestands)overgang / transitie Engels: transition label letter Diagram automaat graaf met labels
Opdracht 1: n,s aananaanananana a s n,s a s a na na s n a s a s a a n s a n a n a n a s a n n a s n a Zoek het woord ananas in onderstaande tekst Maak gebruik van het diagram
15 Opdracht 2: Maak zelf het diagram voor het woord cacao Letters: c,a,o ccacaccaca a a ca ca o c a cacao Oplossing: Dus: Begin met goede woord Schrijf gelezen letters bij elke positie Maak pijlen voor foute letters Controleer of je, bij elke positie, alle letters hebt
16 Opdracht 3 (klassikaal): Maak een diagram dat uitzoekt of een tekst OF het woord “pen” OF het woord “nep” OF allebei bevat Letters: e,p,n e ppepen p a p en e e n ne nep e n e n e p n p
17 Opdracht 4: Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat Letters: a,b,c 1 a2 a’s b,c aa a 3 a’s Oplossing: b,c 0 a‘s
18 Terugblik Samenvatting Zoeken in teksten is belangrijk bv Google, Twitter, Facebook, MS Word Met diagrammen kun je efficient zoeken in teksten Is dit wiskunde? Slimme / snelle methoden om problemen op te lossen Niet altijd met getallen Gebruikt Google dit echt? Google houdt methoden geheim Andere toepassingen (bv grep in Linux) gebruiken het zeker
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 19 Bedankt voor jullie aandacht & tot ziens! UT begeleidt ook profielwerkstukken
Opdracht 1: antwoordvel n,s aananaanananana a s n,s a s a na na s n a s a s a a n s a n a n a n a s a n n a s n a Zoek het woord ananas in onderstaande tekst Maak gebruik van het diagram
21 Opdracht 2: antwoordvel Maak zelf het diagram voor het woord cacao Letters: c,a,o
22 Opdracht 4: Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat Letters: a,b,c