Skip to content

DSB #95

Ahoj,

v pátek jsem dsb sestavit výjimečně nestihl, takže bohužel vychází až v pondělí. Na druhou stranu, po dlouhé pauze způsobené státními svátky, je nabušené kvalitními informacemi a super články. Můžete se dozvědět víc než nejvíc o systemd v computer science, či si prohlídnout (a zapojit se) do TidyTuesday, anebo si přečíst, proč je role datového analytika důležitá, když se modely začnou hroutit (první článek v popu).

Jako vždy, užijte si čtení.

Analytické

https://towardsdatascience.com/why-we-deploy-machine-learning-models-with-go-not-python-a4e35ec16deb – Proč nasazovat věci v Go a nikoliv v Pythonu. (rcmd by reader)

https://github.com/maxbachmann/rapidfuzz/blob/master/README.md – Rychlá Python knihovna na fuzzy matching. (rcmd by reader)

https://github.com/zykls/whynot – Framework whynot určený především pro Python Vám umožní vytvářet simulace v různých dynamických prostředích, ať už za účelem inference nebo reinforcement learningu. Pro představu je tak možné simulovat i bonitu klientů – zde. (rcmd by reader)

Computer Science & Science

https://blog.darknedgy.net/technology/2020/05/02/0/ – Hodně rozsáhlý a hodně dobrý článek o historii kolem systemd, co bylo předtím, jak to funguje, co je špatný. Systemd ČSOB používá na AIML serverech i chatbotích serverech a je to hodně užitečný kus linuxového ekosystému. (rcmd by reader)

https://blog.codinghorror.com/whos-your-coding-buddy/ – Alternativní pohled na párové programování. (rcmd by reader)

https://www.remotemobprogramming.org/ – O Mob programming jsme se zmiňovali už v DSB #82, tak si dejte tenhle vtipnej a zábavnej článek a dozvíte se zase víc. (rcmd by reader)

Grafy a vizualizace

https://github.com/rfordatascience/tidytuesday – TidyTuesday projekt vznikl v rámci komunity r4ds. Každý týden je publikován zajímavý dataset, který slouží k procvičování datové analytiky a vizualizací. Výsledné vizualizace jsou pak postovány na twitteru pod #TidyTuesday. (rcmd by reader)

https://joshdevlin.com/blog/calculate-streaks-in-pandas/ – Co jsou streaks (různě dlouhé a přerušované sekvence událostí), jak s nimi pracovat, jak je v Pandas počítat a v Matplotlib vizualizovat.

https://pair.withgoogle.com/explorables/measuring-fairness/ – Vizualizace, jak měřit spravedlivost (nezaujatost) modelu.

Business a kariéra

https://www.forbes.com/sites/ronshevlin/2020/05/11/google-the-next-big-fintech-vendor/#539e2cd14cbd – Proč by se banky neměly bát Amazonu, ale vlastně ani Googlu. Respektive, proč se Google nikdy nestane bankou.

https://www.nytimes.com/2020/05/12/technology/self-driving-cars-coronavirus.html – Podle některých predikcí jsme už letos skoro všichni měli jezdit v autonomních autech, proč se tak nestalo?

http://news.mit.edu/2020/how-many-jobs-robots-replace-0504 – Kolik pracovních míst skutečně nahradí roboti? Daron Acemoglu, jeden z nejznámějších ekonomů na MIT, na to zaměřil svůj výzkum.

Pop

https://www.technologyreview.com/2020/05/11/1001563/covid-pandemic-broken-ai-machine-learning-amazon-retail-fraud-humans-in-the-loop/ – Některé ML modely začaly selhávat kvůli chování lidí během Covidu-19 selhávat. Přečtěte si co se událo a proč je v daném okamžiku role data scientisty nenahraditelná.

https://stackoverflow.blog/2020/03/31/building-dark-mode-on-stack-overflow/ – SO bude mít dark mode! (rcmd by reader)

https://insidebigdata.com/2020/05/14/nvidia-ships-worlds-most-advanced-ai-system-nvidia-dgx-a100-to-fight-covid-19-third-generation-dgx-packs-record-5-petaflops-of-ai-performance/ – NVIDIA přináší novou generaci grafických karet, respektive vzhledem ke komplexnosti spíše nový systém na trénování AI.

Vzdělávání

https://github.com/d2l-ai/d2l-en – Interaktivní učebnice pro deeplearning. (rcmd by reader)

https://towardsdatascience.com/springer-has-released-65-machine-learning-and-data-books-for-free-961f8181f189 – Vydavatelství Springer uvolnilo zcela zdarma 408 knih a za toho hned 65 je jich o ML a jsou mezi nimi známé klasiky. (rcmd by reader)

https://distill.pub/2020/bayesian-optimization/ – Jak využít Bayesovskou optimalizaci pro optimalizaci různých algoritmů – dlouhý a podrobný článek.

Data & Data Mining

https://petrbouchal.github.io/czso/ – Data českého statistického úřadu konečně dostupná přes R package “czso”. (rcmd by reader)

https://github.com/jkaupp/tidytuesdays – K TidyTuesday samozřejmě vznikají i zajímavé repozitáře jako ten v odkazu, nebo tento či tento. (rcmd by reader)

Video & podcast

https://www.youtube.com/watch?v=pZINGjQ86Hc – Ve vizualizacích zmiňované TidyTuesday má i videa na youtube, kde lidi jako David Robinson ukazují, jak dataset analyzují. Nebo Julia Silge učí přímo, jak data modelovat – zde. (rcmd by reader)

https://open.spotify.com/episode/12NvfdpB544Jo3qbL6sIHm – Podcast s Petrem Šimečkem a Pavlem Doležalem o spolupráci s vládou v rámci COVID19CZ. (rcmd by reader)

https://open.spotify.com/episode/4p9ngbQZH39AplwhFp5vuB – Podcast s Emily Robinson (sestra Davida Robinsona), autorkou knihy Build a career in datascience, o tom jak mít kariéru v datascience světě. (rcmd by reader)

Odborné články

https://amitness.com/2020/05/git-log-of-bert/ – Jak by vypadala historie commitů u BERTa, pokud by existoval git pro odborné články.

Za ohradou

https://amazon.retailandfoodjobs.com/job-5e731b2124543f72d445df51-data-scientist-demand-forecasting-new-york-area – Amazon, New York, USA, hledá data scientistu, který by modeloval poptávku.

Vtip

https://devhumor.com/content/uploads/images/May2020/automation.PNG

Be First to Comment

Leave a Reply