Mengintip Ekosistem Data di Traveloka

image description

Beberapa waktu yang lalu, Traveloka mengadakan meetup data untuk pertama kalinya dengan tema "How to Feed Data Hungry Organization". Pembahasannya kebanyakan berkutat dengan ekosistem data yang dibangun di Traveloka seperti teknologi apa saja yang digunakan untuk penyimpanan, pengolahan maupun analisis data.



Setidaknya ada 40 lebih, data scientist/analyst/engineer di Traveloka yang dikomandoi oleh Ainun Najib dengan tim data engineer dikomandoi oleh Rendy B. Junior dan tim data science dikomandoi oleh Dr. Philip Thomas. Mari kita kupas beberapa teknologi dan perangkat yang digunakan oleh tim data Traveloka.



R

Ketika melihat nama dplyr di salah satu slide presentasi Om Philip, sontak saya pun berkumandang:

"Ceci n'est pas un pipe"

"%>%" begitulah bentuk pipa magrittr, gaya pemrograman unik R dari ekosistem Hadleyverse, selain gaya nyeleneh lainnya seperti menggunakan "<-" ketimbang "=".

dplyr dan data.table merupakan library R yang digunakan untuk data wrangling, mirip seperti query SQL. Untuk readiblity, dplyr lebih baik dibandingkan data.table. Sedangkan, data.table lebih cepat untuk proses data yang lebih besar. Dengan adanya sparklyr pun, query data dari Data Lake dengan gaya dplyr bisa lebih digunakan secara langsung ketimbang dengan bahasa SQL. Selain itu, library R lain yang digunakan di Traveloka ada ggplot2 untuk visualisasi data statis, Shiny untuk visualisasi data interaktif, dan caret maupun e1071 untuk machine learning. 



Python

Sebagai multipurpose language, Python bisa digunakan untuk banyak hal. Di Traveloka, Python digunakan untuk proses ETL, lempar data antar database, transformasi data/pembersihan maupun machine learning. Dibandingkan R, Python memiliki ekosistem machine learning yang lebih padu dengan adanya scikit-learn. Untuk data wrangling, ada pandas dengan filosofi seperti halnya kelas data frame yang ada di R. Terlebih lagi, Python juga digunakan untuk keperluan deep learning via TensorFlow yang memang a big no kalau dilakukan di R. Saya pun penasaran seperti apakah use case deep learning yang ada di Traveloka.



Dataiku

Mungkin ada data scientist yang terlalu R-ish maupun Python-ish, dan disinilah Dataiku berperan sebagai platform agar sesama data scientist saling berkolaborasi meskipun bahasa pemrograman yang digunakan berbeda-beda. Bukan hanya itu, Dataiku juga bisa menjadi jembatan untuk data engineer, data scientist maupun business analyst untuk saling berkolaborasi.

Database dan Penyimpanan

Data disimpan di Cloud via AWS maupun Google Cloud. Ada berbagai macam database yang digunakan di Traveloka baik RDBMS maupun NoSQL dengan tujuan yang juga berbeda-beda. Untuk RDBMS, ada MemSQL, Redshift dan PostgreSQL. Sedangkan untuk NoSQL, ada DynamoDB dan MongoDB. Untuk query engine dari data lake AWS S3 bisa menggunakan Qubole, Presto, Hive atau mungkin menggunakan SparkSQL.

Lainnya

Traveloka juga menggunakan bahasa pemgrograman seperti Julia yang bisa dibilang masih baru. Java yang merupakan core dari Big Data juga digunakan untuk membuat aplikasi untuk presentation layer yang kemungkinan besar digunakan business users. Ada juga beberapa perangkat lainnya yang terdengar asing bagi saya seperti Domo, Keboola, Holistics serta Periscope Data.


Sebenarnya banyak sekali hal yang membuat saya penasaran dengan tim data Traveloka. Seberapa besar data yang dihasilkan? Memang datanya tidak akan sebesar telco yang kini saya cemplungi. Use case-nya seperi apa saja? pricing, customer behaviour, seasonal time-series data. Ya, pastinya ada sangat banyak kasus data menarik yang bisa berguna untuk pengambilan keputusan bagi perusahaan. Bahkan, mereka pun bisa memonetisasi data dan memberikan rekomendasi ke maskapai penerbangan atau hotel, ataupun bekerja sama dengan pemerintahan seperti Kementrian Pariwisata. Well, I do not know. It is interesting though.

Tapi setidaknya, ini awal yang baik bagi dunia data science di Indonesia. Jarang-jarang ada perusahaan yang secara serius membuat tim data, mengumpulkan orang-orang terbaik, membuat ekosistem data yang dewasa dan berbagi kepadayang lain. Sebut saja, di luar Indonesia, ada Airbnb yang data scientist-nya saja ada 100 lebih, belum termasuk data engineer, business analyst  dan lain-lain. Ekosistem data di Airbnb sudah dewasa sejak pertama kali terbentuk pada tahun 2007, mereka pun sering berbagi dan sudah meng-open-source-kan beberapa teknologi maupun library yang mereka gunakan. 

This is the 1st meetup. Artinya, ada meetup kedua, ketiga dan seterusnya bukan?
Well, let see


Latest articles

OUR TOP 5 CONTRIBUTOR

image description

Fajar Muharandy

-

image description

Fajar Jaman

-

image description

Bernardus Ari Kuncoro

-

image description

Rasyid Ridha

image description

ilyas ahsan

Mobile apps developer and Data Science Researcher