Skip to content

DSB #100 (Speciál)

Ahoj,

je pátek a číslo 100 je tady! Připravil jsem pro Vás speciál, takže krom tradiční nálože článků, si můžete projít i nějaké ty informace, které jsem o DSB nasbíral.

S narozeninami se chystá i jedna velká změna! Protože poptávka ze zahraničí sílí, tak od příštího dílu bude DSB nově v angličtině a bude mít mezinárodní publikum.

Na závěr chci poděkovat všem, co mě v tom nenechávají samotného a svému zaměstnavateli, že mě v tom přímo podporuje.

Dost bylo úvodu, jako vždy, užijte si čtení!

(pod přílohou je klasicky bulletin)

Příloha


Víte, že:

  • DSB poprvé pro ostatní vyšlo ve středu 3. 5. 2017 v 8:28
  • první DSB obsahovalo 5 odkazů a mělo 6 odběratelů
  • už předtím existovaly asi dvě „čísla“, která jsem si dělal sám pro sebe, což byla a stále je původní motivace, mít kontakt s tím, co se děje v data science světě
  • inspirací pro vznik DSB byl český videoherní vidcast Vortex
  • název data science bulletin vznikl při čtení papírového odborářského bulletinu 🙂
  • v druhém čísle byly poprvé odkazy rozdělené do kategorií a poprvé byl součástí i vtip
  • číslování jednotlivých dílů začalo od DSB #7
  • od čísla 9 byl počet odkazů na každou kategorii omezen na tři články
  • původně byl DSB týdenní občasník, od čísla 75 je z něj dvoutýdenní občasník
  • sestavit jeden díl trvá 3 až 6 hodin v závislosti na množství doporučených článků a úrodě kvalitních článků ve zdrojích
  • celkem bylo v bulletinu 2 145 různorodých článků a stránek (cca 21 článků na díl), z toho jste doporučili minimálně 794 článků přímo Vy!

Zdroje:

Weby

  • No a bez stránek se články by to samozřejmě nešlo. Dole najdete jaké weby má DSB nejradši, aneb počet výskytů. Je to očištěné na úroveň domény druhého řádu, ze které se započítávají jenom klíčová slova (arbitrárně určená).
  1. github: 135
  2. medium: 125
  3. kdnuggets: 96
  4. towardsdatascience: 71
  5. youtube: 60
  6. analyticsvidhya: 53
  7. arxiv: 51
  8. technologyreview: 30
  9. nytimes: 24
  10. insidebigdata: 23

  1. forbes: 20
  2. quantamagazine: 19
  3. thefinancialbrand: 19
  4. google: 18
  5. realpython: 17
  6. devhumor: 16
  7. wired: 16
  8. hackernoon: 15
  9. ihned: 13
  10. googleblog: 12

  1. techcrunch: 12
  2. xkcd: 12
  3. linkedin: 11
  4. irozhlas: 11
  5. idnes: 11
  6. theverge: 10
  7. cnbc: 10
  8. theguardian: 10
  9. fast: 10
  10. bloomberg: 10

Ostatní

  • zbytek DSB tvoří tento text (odstraněny některá stopwords a slova kratší než 4 znaky):

Kdy DSB vycházel?

download.php?msg_id=0000000078d0004d741405728817&idx=8&part=1.5
download.php?msg_id=0000000078d0004d741405728817&idx=9&part=1.6
download.php?msg_id=0000000078d0004d741405728817&idx=10&part=1.7

Největší pauza byla u čísla 72 (květen 2019), na které se muselo čekat 37 dní. Jak dlouho se na jednotlivá čísla čekalo, můžete vidět zde:

DSBČekačka
#10 days
#29 days
#37 days
#47 days
#57 days
#67 days
#77 days
#85 days
#99 days
#1021 days
#117 days
#127 days
#137 days
#147 days
#157 days
#166 days
#178 days
#1810 days
#1911 days
#2014 days
#217 days
#2210 days
#2311 days
#246 days
#258 days
#267 days
#2714 days
#2824 days
#2911 days
#307 days
#317 days
#3214 days
#3314 days
#347 days
#357 days
#3613 days
#378 days
#387 days
#397 days
#407 days
#417 days
#4214 days
#4314 days
#4421 days
#457 days
#4621 days
#477 days
#487 days
#497 days
#507 days
#517 days
#527 days
#537 days
#547 days
#557 days
#566 days
#578 days
#587 days
#597 days
#6014 days
#6114 days
#6214 days
#6314 days
#6421 days
#6521 days
#667 days
#6714 days
#6821 days
#697 days
#7014 days
#7119 days
#7237 days
#737 days
#7431 days
#7514 days
#7611 days
#7714 days
#7814 days
#7914 days
#8021 days
#8114 days
#8214 days
#8314 days
#8414 days
#8514 days
#8627 days
#878 days
#8814 days
#8914 days
#9014 days
#9117 days
#9211 days
#9314 days
#9416 days
#9529 days
#9611 days
#9714 days
#9821 days
#9914 days

Jak se vyvíjel počet čtenářů?

  • na ose x je vidět, jak se prodloužila doba mezi každými čísly
download.php?msg_id=0000000078d0004d741405728817&idx=7&part=1.4

DSB


Analytické

https://towardsdatascience.com/announcing-pycaret-2-0-39c11014540e – Venku je knihovna pro ML v pythonu, PyCaret 2.0. Co přináší, se dozvíte v odkazu. (rcmd by reader)

https://multithreaded.stitchfix.com/blog/2020/08/05/bandits/ – Jak ve Stitch Fix implementují Multi-Armed Bandits.

https://blog.exxactcorp.com/what-can-you-do-with-the-openai-gpt-3-language-model/ – GPT-3 je možná největší událost v NLP v poslední době, takže doporučuji i tento článek, který Vám vysvětlí, proč je to tak přelomové.

Computer Science & Science

https://ericlippert.com/2014/03/05/how-to-debug-small-programs/amp/ – Stručný a užitečný návod, jak debugovat malé programy. (rcmd by reader)

https://jesseduffield.com/beginners-guide-to-abstraction/ – Jak na abstrakci, kdy ano a kdy ne. Aneb DRY princip neplatí vždy. (rcmd by reader)

https://eigenfoo.xyz/floating-point-deep-learning/ – Floating point je v computer science velká věc, v článku se dozvíte, proč hraje roli i v data science.

Grafy a vizualizace

https://programmerbackpack.com/python-knowledge-graph-understanding-semantic-relationships/ – Knowledge graph v pythonu – hezký tutoriál. (rcmd by reader)

https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/ – Články o dashboardech jsou hodně podněcované, ale v tomhle Vám Amazon vysvětlí, jak na dashboardy pro monitoring.

Business a kariéra     

https://a16z.com/2020/08/12/taming-the-tail-adventures-in-improving-ai-economics/ – Rozsáhlý, hodně analytický a napříč internetem sdílený článek o úskalích a vlastnostech AI businessu.

https://hex.tech/blog/data-team-roi – Jak (ne)počítat ROI (return on investment) u data science týmu.

https://www.kdnuggets.com/2020/08/data-scientist-job-market-2020.html – Jak vypadá pracovní trh s data scientisty v USA v roce 2020, jaké jsou současné trendy. S tím souvisí i tento článek, který hezky popisuje, na co by se měl člověk zaměřit, pokud chce práci v oboru.

Pop

https://blog.kamil-zmeskal.cz/2020/08/budoucnost-vyuzivani-rodnych-cisel.html?m=1 – Budoucnost rodných čísel. (rcmd by reader)

https://www.armadninoviny.cz/clovek-vs-umela-inteligence-roboticke-a-lidske-f-16.html – Nepřekvapivě AI proniká i do armádních technologií jako je třeba F-16. Budeme mít robotické stíhačky? (rcmd by reader)

https://www.theguardian.com/world/2020/aug/10/government-paid-vote-leave-ai-firm-to-analyse-uk-citizens-tweets – Britská vláda platila soukromou firmu za analýzu twitterových příspěvků britských občanů v souvislosti s koronou.

Vzdělávání

https://johnlekberg.com/blog/2020-08-01-task-order.html – Procvičte si algoritmizaci a vyzkoušejte si Kahnův algoritmus, uvedená úloha má napsané řešení v pythonu. (rcmd by reader)

https://www.amazon.science/latest-news/machine-learning-course-free-online-from-amazon-machine-learning-university – Amazon nabízí veřejnosti svoji ML universitu.

https://www.kdnuggets.com/2020/08/unit-test-data-pipeline-thank-yourself-later.html – Jednoduchý unit-testing pro data science pipelinu.

Data & Data Mining

https://medium.com/@angebassa/data-alone-isnt-ground-truth-9e733079dfd4 – Neberte data jako danou věc, ani když potvrzují Vaši hypotézu, buďte skeptičtí a zkoumejte je. (rcmd by reader)

https://www.sankalpjonna.com/posts/handling-more-than-200-transactions-per-second-using-python-rq – Jak s Pythonem zvládnout 200 api transakcí za vteřinu. (rcmd by reader)

https://analyticsindiamag.com/top-10-javascript-machine-learning-libraries/ – I JavaScript má své knihovny pro machine learning, tady je top 10 podle autora článku. (rcmd by reader)

Video & podcast

https://www.youtube.com/watch?v=i7yoXqlg48M – Dobrá přednáška na základy Dockeru. (rcmd by reader)

https://www.youtube.com/watch?v=SnCi0s0e4Io&feature=youtu.beV DSB #53 jsme zmínili knihovnu gganimate, která je už na CRANu, tak si dejte intro, jak na ni. (rcmd by reader)

https://www.youtube.com/watch?v=JMLsHI8aV0g – Čína používá AI ve výuce k trackování studentů, děsivé. (rcmd by reader)

Odborné články

https://syncedreview.com/2020/08/06/arxivs-1-7m-research-papers-now-available-on-kaggle/ – Všechny arXiv články jsou nyní dostupné na Kagglu. Najdete je zde.

https://www.youtube.com/watch?v=nv6oFDp6rNQ – V tomhle krátkém videu Vám autor vysvětlí paper o Hopfield Networks.

https://venturebeat.com/2020/08/10/researchers-find-inconsistent-benchmarking-across-3867-ai-research-papers/ – Neřešte papery, které se zabývají výkoností modelů, u většiny z nich to nemá smysl.

Za ohradou

https://careers.unity.com/position/senior-manager-machine-learning/2251894 – Senior ML manažer v Unity v San Fransiscu, USA.

Vtip

https://qph.fs.quoracdn.net/main-qimg-4974c85e10dde16939d8ad1b2104c629-c

Be First to Comment

Leave a Reply