DSB #98

Ahoj,

čeká nás prodloužený víkend, přišel bulletin a je pátek! Data Science komunita, i s ohledem na události, žije etikou a článků na toto téma je víc a víc (ne moc dobrých, bohužel). Reflexe probíhá ale na více úrovních a za mě je nejzajímavějším čtením vlákno na redditu, které řeší, co všechno je špatně s ML komunitou. Nebo ve stejném řádku odkazovaný článek, co s tím, že většina data science projektů se nedostane na produkci (oboje první článek v Popu). DSB je ale nabušené, jak kulturista na steroidech, takže si myslím přijdete na své i v dalších odkazech…

Jako vždy, užijte si čtení.

Analytické

https://koaning.io/posts/mean-squared-terror/ – Proč je gridsearch biased a Vaše modely jsou kvůli němu overfitted – už článek číslo 4 na toto téma. (rcmd by reader)

https://eng.uber.com/fiberdistributed/ – Seznamte se s Fiberem od Uberu, jak funguje a proč Vám zlepší život při rozsáhlých paralelních nápočtech.

https://towardsdatascience.com/the-matrix-profile-e4a679269692 – Stumpy je balíček na analýzu časových řad v pythonu – tenhle článek je jedním ze série, které Vám ho představí.

Computer Science & Science

https://fastapi.tiangolo.com/ – Flask je minulost, ať žije FastAPI! Viz článek, proč ho už někteří používají právě namísto Flasku. (rcmd by reader)

https://stackoverflow.blog/2020/05/29/why-kubernetes-getting-so-popular/ – Proč je Kubernetes tak populární… (rcmd by reader)

https://nedbatchelder.com/blog/202006/pickles_nine_flaws.html – 9 chyb pickle modulu, aneb nikdo není dokonalý. (rcmd by reader)

Grafy a vizualizace

https://github.com/dexplo/dexplot/blob/master/README.md – Dexplot je Python knihovna na vizualizace. Na první pohled vypadá hezky a čistě, vyhýbá se matplotlibu a za mě má i pěkný kód. (rcmd by reader)

https://codegolf.stackexchange.com/questions/33059/draw-with-your-cpu/33226 – Skvělé vlákno, kde lidé s pomocí grafu výkonu CPU kreslí slovo „MAIL“. (rcmd by reader)

Business a kariéra

https://www.theverge.com/2020/6/25/21301511/apple-ai-machine-learning-features-wwdc-2020-convenience – Jaké AI vychytávky chystá Apple v nejbližší budoucnosti?

https://www.cnbc.com/2020/06/30/fintech-start-up-transferwise-gets-fca-approval-to-offer-investments.html – TransferWise chce do 12 měsíců nabídnout svým klientům možnost investovat.

https://technation.io/news/15-exciting-fintech-companies-to-watch-in-2020/ – 15 fintech společností, které stojí za to sledovat a třeba se inspirovat. Za mě spousta nových.

Pop

https://www.reddit.com/r/MachineLearning/comments/hiv3vf/d_the_machine_learning_community_has_a_toxicity/ – Další zajímavé vlákno na redditu o tom, co je všechno špatně v současné ML komunitě. K tomu bych doporučil i tento článek, proč 87 % data science projektů se nedostane na produkci a co s tím.

https://www.fastcompany.com/90355969/want-to-fix-big-tech-change-what-classes-are-required-for-a-computer-science-degree – Výborný článek, proč je potřeba změnit computer science vzdělávání a víc ho propojit s reálným světem. Je to takový návrat ke kořenům z 19. století, kdy ani technickým oborům nebylo klasické vzdělání cizí. (rcmd by reader)

https://www.cigionline.org/articles/who-responsible-when-autonomous-systems-fail – Tohle téma je nadčasové, kdo nese zodpovědnost za selhání autonomních systémů?

Vzdělávání

https://awsstash.com/ – AWS se Vám možná bude hodit, tak tady najdete různá videa, podcasty a bůhví co všechno ještě, hezky na jedno místě. (rcmd by reader)

https://www.aws.training/LearningLibrary?filters=language%3A1&filters=classification%3A107&tab=digital_courses – A tady si pro změnu můžete udělat certifikát, respektive si projít několika e-learningovými kurzy na AWS. (rcmd by reader)

https://www.analyticsvidhya.com/blog/2020/06/nlp-project-information-extraction/ – Jak na information extraction z textu – podrobný návod.

Data & Data Mining

https://discourse.mozilla.org/t/common-voice-dataset-release-mid-year-2020/62938 – Common Voice vydává další dataset – 7 226 nahraných hodin, 54 jazyků (včetně češtiny), 50 Gb dat.

Odborné články

https://www.aitruth.org/aiethics-readinglist – Seznam článků a knih na aktuální téma AI a etika.

https://www.ai21.com/auxiliary-tuning – Velmi stručné shrnutí odborného paperu na auxiliary tuning – tj. adaptování existujícího modelu na úplně nový úkol.

https://arxiv.org/abs/2006.14536 – Existuje trade-off mezi robustností a přesností modelu? Článek navrhuje Smooth Adversarial Training, kde nahradí aktivační funkci ReLU za její smooth aproximaci (…zná někdo český překlad?). Výsledkem je robustnost zadarmo.

Za ohradou

https://apply.workable.com/drivendata/j/E5EC71B709/ – Data Scientist v USA, Boston nebo Berkeley.

Vtip

https://www.reddit.com/r/ProgrammerHumor/comments/hj7q2s/seems_legit/