U Subotici će se, u martu i u aprilu, održati kurs upravljanja podacima uz R jezik.

Termini kursa su 7., 14., 21. mart i 4.  april.

Veće su šanse da jeste nego da niste čuli za nauku o podacima. Možda vam je asocijacija na neke pametne ljude koji tipkaju na svojim računarima na jeziku koji vam je stran i tuđi. Ako ovo tako zamišljate, onda niste svesni potencijala pismenosti podacima koji vaš život, kompaniju ili institiciju može učiniti bolje obrazovanom, pronicljivijom i dinamičnijom od vaših kolega i konkurenata.

Data pismenost je važan deo kulture zasnovane na podacima. Na ovom kursu naučićemo vas da “obradite i govorite podatke”, korak po korak, od početka, kako biste identifikovali nevidljive detalje, proizveli priče s vizuelnim podacima i omogućili predviđanja podataka. Naučićete osnove opisne statistike i istraživačke analize podataka, statističko modeliranje, statističke testove kao i tehnike mašinskog učenja.

Sadržaj kursa osmišljen je tako da vas informiše, motiviše i opremi da koristite podatke kao deo vašeg svakodnevnog jezika, osnažujući vas i čineći vas produktivnijim u svom svakodnevnom radu.

Na kraju kursa, učesnici će moći brzo da pronađu i primene odgovarajuće analitičke metode kako bi odgovorili na sopstvena pitanja vezana za podatke.

Ako želite da:

  • Naučite da istražujete, vizualizujete i analizirate podatke na reproduktivan i podeljiv način
  • Razvijete razumevanje i osnovno znanje za modeliranje podataka, identifikujete šablonska ponašanja u podacima i pravite predviđanja
  • Razvijete razumevanje najčešće korišćenih analitičkih tehnika koje se danas praktikuju u industriji
  • Radite na studijama slučaja inspirisanim stvarnim problemima i na osnovu stvarnih podataka
  • Postanete svesni i prepoznajete ogroman potencijal nauke o podacima

onda je ovaj kurs za vas! 

Zadatak kursa:

 

Ovaj kurs pruža pregled ključnih koncepata za kreiranje efikasnog Data Science projekta i predstavlja alate i tehnike za organizovanje podataka (data wrangling), statističko modelovanje, vizualizaciju i reproduktivno izveštavanje korišćenjem R-a, jezika koji je dostupan za analizu podataka. R jezik pruža bogato i fleksibilno okruženje za rad sa podacima, posebno sa podacima koji se koriste za statističko modelovanje ili grafičko prikazivanje.

R sistem ima bogatu biblioteku paketa koji nude vrhunske mogućnosti. Mnoge analize koje R paketi nude nisu dostupne ni u jednom od standardnih paketa u drugim jezicima. R vam omogućava da pobegnete iz restriktivnih okruženja i od sterilnih analiza koje nude najčešće korišćeni statistički softverski paketi. On omogućava lako eksperimentisanje i istraživanje, što poboljšava analizu podataka. Deljenje otkrivenog znanja analizom podataka je neophodno da bi bilo korisno. R je alat koji omogućava izveštavanje o modernim analizama podataka na ponovljiv tj. reporoducibilni način. Takav način izveštavanja čini analizu korisnijom za druge, jer se podaci i programski kod koji su zapravo sproveli analizu mogu lako učiniti dostupnima. Kao takav, R je postao lingua franca kvantitativnog istraživanja. Shodno tome, ovaj kurs će akcenat staviti na pakete koji će vam pomoći da uradite analizu podataka, vizualizaciju i komunikaciju sa širom publikom.

Kurs započinje uvodom u osnovne koncepte R-a: osnovna upotreba R konzole kroz RStudio IDE, unos podataka, vođenje evidencije o objektima i uopšteno upoznavanje sa dobrim praksama R projekata. Zatim će se baviti osnovnim statističkim konceptima i tehnikama statističkog modelovanja. Osnovni statistički koncepti, koji se teoretski mogu smatrati složenim, mogu se efikasnije komunicirati pomoću vizualizacije. Stoga se formalna apstraktna priroda statistike može demistifikovati vizualizacijom konteksta aplikacije, zbog čega je fokus usmeren na izgradnju odgovarajuće vizualne prezentacije datog problema analize podataka i inteligentno reproducibilno izveštavanje analize podataka pomoću RMarkdown-a.

Koristeći stvarne podatke i stvarne primere, upoznaćemo vas sa osnovnim statističkim konceptima kako biste postavili osnovu za ključne tehnike statističkog modeliranja. Kurs ćemo završi upoznavanjem sa ključnim algoritmima mašinskog učenja (ML), pružajući vam uvid u to kako se ML prilagođava i menja pretpostavke u svom procesu od tri koraka (podaci -> model -> akcija) i reagovanjem na greške.

Kontrola i praćenje verzija je postala bitan alat za praćenje rada na projektima DS-a, kao i saradnju. RStudio podržava rad sa Git-om, javnim distributivnim sistemom kontrole verzija, koji je jednostavan za upotrebu kada se kombinuje sa GitHub-om, web-baziranom uslugom hostinga Git repozitorijuma. Tokom celog kursa bićete upoznati sa GitHub-om i upoznaćete se sa dobrom praksom uključivanja korišćenja Git-a u radni proces na R projektu.

 

Ciljevi:

  • Upoznati se sa alatima i načinima obrade podataka u R / RStudiu koji će proširiti spektar DS problema koji se mogu efikasno analizirati.
  • Kreirati osnovu za razvoj analitičkih veština za rukovanje različitim vrstama podataka i odgovarajućim analitičkim metodologijama.
  • Upoznati osnovne principe efektivne vizualizacije podataka.
  • Pružiti uvid u alate i tehničke veštine koje omogućavaju primenu raznih statističkih analiza.
  • Omogućiti reproduktivno (ponovljivo) izveštavanje statističkih analiza ciljnim grupama sa različitim nivoima sposobnosti tumačenja numeričkih / statističkih rezultata.
  • Izgraditi osnovna znanja koja će omogućiti nadogradnju i primenu složenijih statističkih analiza

Kako kurs funkcioniše

Strategija nastave i učenja

Materijal je strukturiran u okviru četiri nedeljna modula. Svaki modul je celodnevna radionica podeljena na jutarnju (deo I) i popodnevnu sesiju (deo II).

10:00 – 13:00: predavanje (deo I)

13:00 – 13:45: pauza za ručak

13:45 – 17:00: predavanje (deo II)

17:00 – 18:00: pitanja / odgovori

Svaki modul će voditi Dr Tatjana Kecojević i pokriće različite srodne teme kroz odgovarajuće studije slučaja, prezentacije, materijale za proučavanje i forume za diskusiju. Osnovne tehnike obrade podataka i statističkog modelovanja biće predstavljene tokom nastave. Od studenata se očekuje da sami prodube svoje razumevanje predstavljenih modela prateći date instrukcije i zadate vežbe. Konceptualni modeli oživljavaju kada praksa postane stvarnost tokom ‘hands on’ predavanja kroz primenu R-a. Između jednonedeljnih predavanja od studenata se očekuje da samostalno vežbaju i usavrše stečene veštine obrade podataka. Studentima se pruža mogućnost da testiraju svoje konceptualno i praktično znanje na nedeljnoj bazi putem interaktivnih ‘student / nastavnik’ radionica.

Od studenata se očekuje da u potpunosti učestvuju na svim predavanjima bez obzira na njihov format. Posebno se očekuje da pokušaju da urade zadate vežbe kako bi u potpunosti bili spremni da razgovaraju o vezanim problemima, raspravljaju o konceptima i idejama, kao i da razreše nove problemske zadatke proistekle iz zadatih vežbi.

Preporučujemo da pre kraja svake nedelje:

  • Obavite zadata čitanja sa predavanja / vežbi
  • Učestvujete u forumima za diskusiju
  • Uradite kvizove koji pokrivaju koncepte iz tutorijala i / ili čitanja.

 

Kome je kurs namenjen

 

Ovaj kurs je namenjen ljudima iz različitih disciplina i različitih profila. Dizajniran je za ljude koji prepoznaju neprocenjiv značaj podataka i njihovu upotrebu.

Nije potrebno predznanje za upis na kurs.

Ovaj kurs će imati koristi svima koji imaju radoznalost i želju da uđu u domen nauke o podacima. Kurs će pomoći u razumevanju sveta podataka i naučiće vas kako koristiti delotvorne i atraktivne načine za vizualnu analizu i komunikaciju relevantnih informacija. Sa znanjem stečenim na ovom kursu, bićete spremni da uradite svoju prvu analizu podataka.

Data Science nije samo moderan žargon, već disciplina sa setom alata koji unapređuju život obogaćen podacima. Shodno tome, bez obzira u kojoj se industriji nalazite, ovaj kurs je bitan i za vas!

Predavanja će biti na engleskom i srpskom jeziku!

Upoznajte instruktora

 

Instruktor je Dr Tatjana Kecojević koja je dugogodišnji R korisnik sa doktoratom iz statistike stečenim na Univerzitetu u Mančesteru. Tatjana je provela dugi niz godina radeći u visokom obrazovanju u Velikoj Britaniji kao predavač senior, sa velikim brojem istraživačkih radova u oblasti kvantilne regresije.Osnivač je i suorganizator poglavlja R-Ladies Manchester, Beograd i Novi Sad, vođa tima R Forwards i Žene u Nauci o Podacima (WiDS) ambassador. Trenutno je osnivačica i direktorica SisterAnalyst.org, organizacije koja ima za cilj osnaživanje žena iz različitih disciplina kroz data pismenost. Ne iznenađuje da je Tatjana entuzijastična korisnica R-a i pored svog učešća u pružanju podrške ženama u aktivnostima povezanim sa STEM-om, posvećena je stvaranju inkluzivne kulture razvijanjem inicijativa koje podržavaju sve nedovoljno zastupljene grupe unutar DS zajednice.

 

Indikativni Sillabus

Nedelja 1

RStudio IDE; R jezik; Klasifikacija podataka i zbirna statistika.

U ovom modulu ćete podesiti radno okruženje, povezati se sa GitHubom i premostiti prvu veliku prepreku unosa podataka i naučiti kako da to uradite na pravilan način pomoću komandi u R-u.

Naučićete kako da koristite RStudio IDE za R od instalacije do RStudio podešavanja i navigacije po fajlovima. Naučićete dobre rutine i steći praksu u rada na R projektu. Kada se dobro upoznate sa radnim okruženjem RStudia, preći ćete na savladavanje ključnih karakteristika R jezika i upoznati se sa osnovnim statističkim konceptima. Nećemo se zaustaviti na tome. Pokazaće vam se kako da svoju analizu pretvorite u kvalitetan document i prezentaciju uz pomoć R Markdown. Sa znanjem iz ove lekcije moći ćete da kreirate ponovljive izveštaje direktno iz R koda I to tako da dokumentujete svoju analizu i njene rezultate kao HTML, pdf, prezentaciju ili Microsoft Word dokument.

Šta ćete naučiti:

  • Osnovna upotreba R / RStudio konzole
  • Dobre navike za radni proces
  • Pristup i unošenje različitih tipova podataka
  • R okruženje: vođenje evidencije
  • Klasifikacija podataka
  • Opisna zbirna statistika
  • ‘base’ R grafika
  • Autorizovanje R Markdovn izveštaja: ugradnja R koda; LaTek za ukljucivanje matematičkih izraza
  • knitr za kompajliranje dinamičkog R koda

Nedelja 2

Data Vrangling i Vizualizacija Podataka

U ovom modulu ćete naučiti neke od osnovnih tehnika za istraživanje i transformaciju podataka pomoću `dplyr` paketa. Ovaj ‘tidy verse‘ paket čini vaše istraživanje intuitivnim za pisanje i lako čitljivim. Naučićete dplyr-ove ključne glagole za manipulaciju podacima koji će vam pomoći da otkrijete i oblikujete informacije unutar podataka koje je lako pretvoriti u informativne grafikone. Korištenjem koncepata gramatike grafičkog crtanja implementiranog u ‘ggplot2’ paketu moći ćete kreirati grafikone. Razvićete metode za razumevanje  i načine razmišljanja o neophodnim transformacijama podataka i simacijama koje mogu dovesti do informativne vizualizacije.

Šta ćete naučiti:

  • dplyr-ove ključne glagole za manipulaciju podacima: select, mutate, filter, arrange and summarise/summarize
  • agregiranje podataka po grupama
  • lančanu manipulacija podacima pomoću ‘pipe’ operatera
  • da specifikujete ggplot2 blokove i kombinujete ih kako biste kreirali grafički prikaz
  • o filozofskoj osnovi ggplot2 paketa: gramatički elementi (slojevi) i estetska mapiranja.

Nedelja 3

Statističko modelovanje i uvod u DA metodologiju i bivarijantnu analizu podataka

U ovom modulu ćete naučiti temeljne koncepte statističkog modelovanja počevši od istraživanja podataka koristeći odgovarajuće grafikone i načine računanja deskriptivne statistike i potom prelaska na inferencijalnu statistiku procene parametara i testiranja hipoteza. Naučićete kako da uparite tipove podataka sa odgovarajućim statističkim modelom sa fokusom na „numerički vs atributivni“ i „numerički vs numerički“ tipovi problema bivarijantne analize podataka. Sa znanjem iz ove lekcije moći ćete da sprovodite osnovne tipove statističkih analiza „NvA“ i „NvN“, da interpretirate i izveštavate o rezultatima na odgovarajući način.

Šta ćete naučiti:

  • Koncept statističke distribucije
  • Istraživanje različitih tipova podataka
  • Metodologiju analize podataka; testiranje hipoteza
  • Istražiti odnose između N i A varijabli
  • Two tail t-test
  • One-way ANOVA
  • Jednostavna linearna regresija
  • Statističko izveštavanje

Nedelja 4

Statistical Modeling II

Mašinsko učenje: Multifaktorska linearna regresija i klasifikaciono modelovanje

Upoznaćete se sa širokim idejama nadziranih (supervised) i nenadziranih (unsupervised) algoritama učenja, kao i sa brojnim osnovnim konceptima mašinskog učenja. U ovom modulu regresiono modelovanje je ključni model konstrukcije koji će biti predstavljen i razvijen. Naučićete važnost izbora odgovarajućeg uzročnog modela u zavisnosti od konkretnih okolnosti. Takođe ćete se upoznati sa osnovnim modelima i algoritmima koji se koriste u klasifikaciji. Sa znanjem iz ove lekcije ne samo da ćete moći da sprovedete regresionu analizu, interpretirate i izveštavate o ishodima na odgovarajući način, već ćete biti u stanju da primenite ključne algoritme učenja za otkrivanje šema i strukture unutar podataka.

Šta ćete naučiti:

  • Multifaktorsko modelovanje linearne regresije:

– izgradnja linearnog modela

– validacija modela: koeficijent determinacije

– tumačenje parametara i izveštavanje o prirodi veza

– prirodi odnosa

  • Klasifikaciono modelovanje
  • Procena efikasnosti izgradjenog modela koristeći rigorozni okvir treniranja i testiranja

Registracija i cena kursa

Poslednji dan za prijave na kurs je 3. mart, 2020. godine.

Cena kursa je 400€, a za studente je omogućen popust od 50%.

Za pohađanje ovog kursa je neophodno da posedujete prenosivi računar ili laptop.