Хто такий Data Scientist? Що потрібно, щоб розпочати кар’єру у цій галузі? Якими навичками має володіти такий спеціаліст? Розповів Юрій Хома, Chief Data Scientist Abto Software.

Про початок

Юрій Хома, Chief Data Scientist в Abto Software. Працює в ІТ майже 10 років.

“Попри те, що я закінчив гуманітарну школу, мені завжди краще давались точні науки. Тому і спеціальність обрав технічну — “Інформаційно-вимірювальні технології”.

Закінчив “Львівську Політехніку”. Цей ЗВО — один з небагатьох, які давали можливість поїхати вчитись за кордон, тому бакалаврат я завершив в Україні, а магістратуру — у Німеччині.

Після повернення вирішив продовжити навчання в аспірантурі. Причиною став досвід у Німеччині — там я побачив, що кандидатська ступінь дає непогані перспективи. А оскільки я планував суміщати викладацьку діяльність із роботою в індустрії, вирішив, що це стане хорошим бонусом.

Працювати в ІТ почав з 2011 року паралельно з навчанням в аспірантурі. Спочатку спробував себе у якості Embedded-розробника, але згодом потрапив до компанії, яка спеціалізувалася на Speech recognition. Саме тоді почалось моє знайомство з машинним навчанням, нейронними мережами та Deep Learning.

Напевно, це був один із найскладніших моментів у кар’єрі. Досить важко перемикнутися з Embedded та Hardware Engineering на такий абстрактний напрям, як Machine Learning та Data Science. Перший час я шкодував, що втрачаю практичні навички у попередніх галузях — навіть намагався знайти проєкти на перетині. Однак досить скоро зрозумів, що Data Science — це щось набагато глибше та, як на мене, цікавіше.

Хто такий Data Scientist

Data Scientist — це спеціаліст, який вміє ефективно зібрати, очистити і дослідити дані, змоделювати їх внутрішні залежності та на основі цього правильно інтерпретувати одержані результати. Потрібно в рівній мірі володіти мовами програмування, статистикою та машинним навчанням в поєднанні з хорошим розумінням предметної області.

Це досить наукоємна спеціальність, яка вимагає серйозної технічної підготовки. Тут поєднується індустрія та академія, адже дуже часто потрібно проводити наукові дослідження. Саме це стало причиною того, чому Data Science — це той напрямок, який найбільше зацікавив мене в ІТ.

Мені подобається, що тут дуже потужне та різнорідне ком’юніті. Крім цього, оскільки спеціальність тісно пов’язана з розвитком штучного інтелекту, трапляються завдання, які на перший погляд неможливо виконати.

Наприклад, якось я працював на проєкті, де ми робили управління колісним роботом за допомогою сигналів мозку. Одягали шолом, вимірювали електроенцефалограму та за допомогою штучних нейронних мереж декодували їх у програму керування для платформи.

Коли я лише починав працювати з проєктом, не був впевнений, що це можливо. Однак на певному якісному рівні реалізувати ідею вдалось. У майбутньому за результатами цієї роботи я планую випустити наукову статтю.

Як працює Data Scientist

В мене досить стандартний робочий день: кава, перегляд пошти, Stand-Up, ще раз кава, кодинг, мітинги та знову дуже багато кави 🙂

Я щодня переглядаю публікації по Machine Learning. Крім цього, оскільки експерименти в Data Science дуже тривалі по часу (від кількох днів до кількох тижнів), я постійно контролюю проміжні результати навіть в неробочий час. Бували моменти, коли на проєкті “горіли” терміни, тому доводилось ставити будильник та посеред ночі вставати запускати наступні скрипти.

Зазвичай у мене 7-8 робочих годин на день, але дуже часто вони не надто структуровані. Ми співпрацюємо з іноземними компаніями, тому через різницю у часових поясах говорити із замовниками я можу лише близько 6-7 години вечора.

Одного разу мав досвід співпраці із США та Таїландом водночас. Тоді день був ще більш розірваним. Я мав насичений ранок, вільні години в обід та такий самий насичений вечір.

Втім, оскільки я водночас працюю викладачем в університеті, такий графік для мене виявився зручним — в обідній час я ставив пари. Крім цього, помітив позитивний ефект: маючи дефіцит часу ти вчишся набагато продуктивніше його витрачати.

Переваги та труднощі у професії

Data Science — це дуже динамічна галузь, яка дозволяє працювати з передовими речами. Всі проєкти пов’язані з дослідницькою діяльністю, тому часто треба проводити наукову роботу. Рутина тут не дуже рутинна і завжди є місце для нового — а це, напевно, одна з найосновніших переваг.

Але і труднощі є. В основному — важко ставити естімейти та давати обіцянки клієнту, адже тип діяльності не дозволяє остаточно передбачити, яким буде результат. Звичайно, можна провести оцінку до якогось певного рівня. Але у порівнянні з іншими галузями, де є жорсткі критерії, тут завжди ризик не вгадати.

Крім цього, оскільки в мене не класична Computer Science освіта, в певні моменти я мав труднощі з підготовкою. Тому довелось витрачати додатковий час, щоб повноцінно закрити ці топіки.

Що потрібно, щоб стати Data Scientist

Перше — профільна вища освіта. Для цієї галузі вона однозначно потрібна. Тут дуже багато розрахунків та математики, тому без правильного бекграунду працювати не вийде. Якщо переглянути стандартні вакансії на ринку, всюди вимагають так званий STEM Stack — технічну або фізико-математичну освіту.

Можливо, для когось хорошим варіантом стануть спеціалізовані курси, але я не можу впевнено сказати, чи це дасть результат. Математика — непроста дисципліна, тому якщо є здібності та ти можеш самостійно вчитись, це одне. Але в більшості випадків без вчителя просуватись важко.

Друге — хоч наявність наукових ступенів не є обов’язковою, однак якщо є можливість, краще довчитись. Data Science — це наукоємна спеціальність, тому працедавці часто вимагають хоча б рівень магістра. Відсутність цього формального критерію може стати блокером, який не дасть досягти того кар’єрного рівня, якого ти хочеш.

Третя важлива річ — знання англійської мови. Динаміка в галузі дуже висока, практично кожен місяць щось змінюється. З’являються нові дані, які не встигають перекладати українською. Тому потрібно знати англійську, щоб вільно все опрацьовувати.

Оскільки це не художня література, матеріали написані не живою мовою, а так званими “патернами” технічних термінів. Тому якщо людина має хороший досвід в математиці, мінімальний рівень для їх розуміння — Pre-Intermediate. Для початківців у галузі потрібен Intermediate та вище.

Як розпочати кар’єру Data Scientist

Універсальної поради немає, адже в кожного свій шлях. Зі свого досвіду я б радив обрати правильний університет. Як я вже казав, без освіти у цій галузі не обійтись. Хороший університет сформує каркас знань, який потім дозволить ефективніше обрати напрям та працювати.

Водночас, не варто сподіватись, що здобутих в університеті знань буде достатньо. Треба приділяти увагу і практичній складовій. Шукати хакатони, онлайн-змагання, брати участь у конференціях тощо — це допоможе “набити руку”.

Крім цього, варто слухати онлайн-курси та читати топіки від передових університетів світу. Найчастіше в них діляться власними новітніми опрацюваннями, яких більше ніде немає”.

Корисні ресурси для початківців

Події

  • Профільні: DataScience.UA; Eastern European Computer Vision Conference.
  • Не профільні, але з великою кількістю DS/ML/AI доповідей: Lviv IT Arena; Morning@Lohika.

Літні школи

Курси

Книги

  • Beginner: Building Machine Learning Systems with Python — Third Edition by Luis Pedro Coelho, Willi Richert, Et al;
  • Advanced: Deep Learning by Ian Goodfellow.

 

 

Текст: Марина Романцова