Як уладкавацца на першую працу ў галіне навукі дадзеных?

Як можна атрымаць працу на першым узроўні ў якасці даследчыка дадзеных або аналітыка дадзеных? Калі вы праглядзіце форумы навуковых дадзеных, вы знойдзеце шмат пытанняў па гэтай тэме. Чытачы майго блога навуковых дадзеных (data36.com) час ад часу пытаюцца ў мяне. І я магу сказаць вам гэтую цалкам актуальную праблему!

Я вырашыў абагульніць свае адказы на ўсе асноўныя пытанні!

НОВАЕ! Я стварыў усёабдымны (бясплатны) онлайн-відэа-курс, каб дапамагчы вам пачаць працу з Data Science. Націсніце тут для атрымання дадатковай інфармацыі: Як стаць навукоўцам дадзеных.

РЭГІСТРАЦЬ ТУТ (БЯСПЛАТНА): https://data36.com/how-to-become-a-data-scientist/

№ 1: Якія самыя важныя навыкі і інструменты вучонага? І як вы іх атрымаеце?

Добрыя навіны - дрэнныя навіны.

Пачну з дрэннага. У 90% выпадкаў навыкі, якія яны выкладаюць у універсітэтах, не вельмі карысныя ў праектах навуковых дадзеных па рэальным жыцці. Як я ўжо пісаў некалькі разоў, у рэальных праектах гэтыя 4 навыкі кадавання дадзеных неабходныя:

  • bash / камандны радок
  • Пітон
  • SQL
  • R
  • (а часам і Java)
крыніца: KDnuggets

Якія 2 ці 3 вам будуць найбольш карыснымі, на самай справе залежыць ад кампаніі ... Але калі вы навучыліся аднаго, вам будзе нашмат прасцей даведацца іншае.

Такім чынам, першае вялікае пытанне: як вы можаце атрымаць гэтыя інструменты? Вось добрая навіна! Усе гэтыя інструменты бясплатныя! Гэта азначае, што вы можаце загрузіць, усталяваць і выкарыстоўваць іх, не плацячы за іх ні капейкі. Вы можаце папрактыкавацца, пабудаваць праект хобі дадзеных або што заўгодна!

Нядаўна я напісаў пакрокавую артыкул пра тое, як усталяваць гэтыя інструменты на свой кампутар. Праверце гэта тут.

№ 2: Як навучыцца?

Ёсць два асноўныя спосабы навучання дадзеных лёгка і эканамічна эфектыўна.

1-е: Кнігі.

Своеасаблівая старая школа, але ўсё яшчэ добры спосаб навучання. З кніг можна атрымаць вельмі мэтанакіраваныя, вельмі падрабязныя веды пра аналіз дадзеных у Інтэрнэце, статыстыку, кадаванне дадзеных і г.д. ... Я вылучыў тут 7 кніг, якія рэкамендую ў сваёй папярэдняй артыкуле.

Лепшыя 7 кніг дадзеных, якія я рэкамендую

2-е: Інтэрнэт-семінары і відэа-курсы.

Інтэрнэт-курсы па навуцы дадзеных ідуць з справядлівымі коштамі ($ 10— 500 $) і ахопліваюць розныя тэмы, пачынаючы ад кадавання дадзеных да бізнес-аналітыкі. Калі вы не хочаце марнаваць грошы на гэта ў пачатку, я пералічыў бясплатныя курсы і навучальныя матэрыялы ў гэтым пасце.

(3-ы: Курс першага месяца малодшага навукоўца) Я стварыў 6-тыднёвы анлайн-курс навучання дадзеных, які імкнецца да навукоўцаў дадзеных практыкаваць і вырашаць рэальныя задачы на ​​аснове дадзеных праўдзівага жыцця: першы месяц малодшага навукоўца дадзеных .)

№ 3: Як практыкаваць і як атрымаць рэальны жыццёвы вопыт

Гэта складана, так? Кожная кампанія хоча мець людзей, якія маюць хоць бы крыху рэальнага жыццёвага вопыту ... Але як вам атрымаць рэальны жыццёвы вопыт, калі вам патрэбен рэальны жыццёвы вопыт, каб атрымаць першую працу? Класічны ўлоў-22. І адказ такі: праекты для хатніх жывёл.

"Праект з хатнімі жывёламі" азначае, што вы прыдумалі ідэю праекта дадзеных, якая выклікае захапленне. Тады вы проста пачнеце яго будаваць. Вы можаце думаць пра гэта як пра невялікі запуск, але пераканайцеся, што вы працягваеце засяроджвацца на навуковай частцы праекта і можаце проста ігнараваць дзелавую частку. Каб даць вам некалькі ідэй, вось некалькі маіх хатніх жывёл праектаў за апошнія некалькі гадоў:

  • Я стварыў сцэнар, які адсочваў сайт нерухомасці і па электроннай пошце мне выгадныя прапановы ў рэжыме рэальнага часу - так што я мог бы атрымаць гэтыя здзелкі раней за ўсіх.
  • Я стварыў сцэнар, які перацягваў усе артыкулы ABC, BBC і CNN і, абапіраючыся на выкарыстаныя словы, звязаў артыкулы, якія былі прыкладна на тую ж тэму на трох розных парталах навін.
  • Я пабудаваў чат-бот для самастойнага навучання ў Python. (Гэта не занадта разумна, бо я яшчэ гэтага не трэніраваў.)

Будзьце творчыя! Знайдзіце для сябе праект, звязаны з навуковымі дадзенымі, і пачніце кадаваць! Калі вы трапілі ў сцяну з праблемай кадавання - гэта можа здарыцца лёгка, калі вы пачнеце вывучаць новую мову дадзеных - проста скарыстайцеся google і / або stackoverflow. Адзін з маіх кароткіх прыкладаў - пра тое, наколькі эфектыўны стакаверф:

левы бок: маё пытанне - правы бок: адказ (праз 7 хвілін)

Звярніце ўвагу на часовую марку! Я даслаў нейкае складанае пытанне, і я атрымаў адказ праз 7 хвілін. Адзінае, што мне трэба было зрабіць, гэта скапіяваць і ўставіць код у мой вытворчы код і бум, ён проста працаваў!

(Заўвага: Крыжаваная праверка - яшчэ адзін выдатны форум для пытанняў, звязаных з навукай дадзеных.)

+1 прапанова:

Нават калі гэта крыху складана, паспрабуйце атрымаць настаўніка. Калі вам пашанцуе, вы знойдзеце чалавека, які працуе ў ролі Data Scientist у добрай кампаніі і які можа праводзіць з вамі гадзіну ці два тыдні і абмяркоўваць ці вучыць рэчы.

№ 4: Куды і як вы адпраўляеце першую заяўку на працу?

Калі вам так і не ўдалося знайсці настаўніка, вы можаце знайсці свой першы ў вашай першай кампаніі. Гэта будзе вашай першай працай, звязанай з навукай аб даных, таму я прапаную не засяроджвацца на вялікіх грошах ці на супер-фантастычнай атмасферы запуску. Засяродзьцеся на пошуку асяроддзя, у якім можна даведацца і ўдасканаліць сябе.

Узяцце першай працы ў галіне навуковых дадзеных у шматнацыянальнай кампаніі можа не адпавядаць гэтай ідэі, таму што людзі звычайна занадта занятыя сваімі рэчамі, таму ў іх не будзе часу і / і матывацыі, каб дапамагчы вам палепшыць (зразумела, заўсёды ёсць выключэнні).

Пачынаць з малюсенькага запуску ў якасці першага з дадзеных у камандзе не з'яўляецца добрай ідэяй ні ў вашым выпадку, таму што ў гэтых кампаній няма старэйшых хлопцаў, з якімі можна даведацца.

Раю засяродзіцца на 50–500 кампаній памеру. Гэта залатая сярэдзіна. Старэйшыя навукоўцы дадзеных працуюць, але яны не занадта занятыя, каб дапамагчы і навучыць вас.

Добра, вы знайшлі добрыя кампаніі ... Як падаць заяўку? Некаторыя прынцыпы вашага рэзюмэ: вылучыце свае навыкі і праекты, а не свой досвед (бо ў вас яшчэ не так шмат гадоў, каб зрабіць гэта на паперы). Пералічыце адпаведныя мовы кадавання (SQL і Python), якія вы выкарыстоўваеце, і звязаць некаторыя звязаныя з вамі рэфізіі Github, каб вы маглі паказаць, што вы сапраўды карысталіся гэтай мовай.

Таксама ў большасці выпадкаў кампаніі просяць суправаджальны ліст. Вядома, гэта добрая магчымасць выказаць свой энтузіязм, але вы можаце дадаць некаторыя практычныя падрабязнасці, напрыклад, што б вы зрабілі ў першыя некалькі тыдняў, калі б вас прынялі на працу. (Напрыклад, "гледзячы на ​​ваш рэгістрацыйны паток, я думаю, што ____-старонка гуляе важную ролю. У першыя некалькі тыдняў я б выконваў ___, ___ і ___ (канкрэтныя аналізы), каб даказаць гэтую гіпотэзу і больш глыбока зразумець яе. Гэта можа дапамагчы кампаніі палепшыць _____ і ў канчатковым выніку падштурхнуць _____ КПІ. ")

Будзем спадзявацца, што гэта апынецца на сумоўі, дзе вы зможаце пагутарыць пра свае праекты хатніх жывёл, вашыя прапановы ў суправаджальным лісце, але гаворка пойдзе пераважна пра праверку асобы і, хутчэй за ўсё, пра асноўны тэст. Калі вы практыкаваліся дастаткова, вы пройдзеце гэта ... але калі вы нервовы тып і хочаце больш займацца, вы можаце зрабіць гэта на hackerrank.com.

Выснова

Ну вось і ўсё. Я ведаю, што гэта гучыць лягчэй, калі пішацца, але калі вы сапраўды поўныя рашучасці быць навукоўцам дадзеных, гэта не будзе мець ніякіх праблем, каб гэта адбылося! Удачы вам!

Калі вы хочаце паспрабаваць, што гэта такое, як быць малодшым навукоўцам дадзеных пры запуску рэальнай жыцця, праверце мой 6-тыднёвы інтэрнэт-курс па навуковых дадзеных: Першы месяц малодшага навукоўца дадзеных!

І калі вы хочаце даведацца больш пра навуку дадзеных, паглядзіце мой блог (data36.com) і / альбо падпішыцеся на мой бюлетэнь! І не прапусціце мой новы шэраг падручнікаў па кадаванні: SQL для аналізу дадзеных!

Дзякуй за чытанне!

Атрымлівалі задавальненне ад артыкула? Калі ласка, дайце мне ведаць, націснуўшы ніжэй. Гэта таксама дапамагае іншым людзям бачыць гісторыю!

Томі Местэр, аўтар data36.com Twitter: @ data36_com