Apakah beberapa cara utama untuk mengotomatisasi dan mengoptimumkan proses sains data?

2025

Proses sains data dalam konteks pembelajaran mesin dan AI boleh dibahagikan kepada empat fasa yang berbeza:

pengambilalihan data dan penerokaan,
bangunan model,
penggunaan model dan
penilaian dalam talian dan penghalusan.

Dari pengalaman saya, fasa paling menghalang adalah fasa pengambilan data dan fasa penggunaan model dalam mana-mana proses sains data pembelajaran berasaskan mesin, dan di sini adalah dua cara untuk mengoptimumkannya:

1. Menetapkan datastore yang sangat mudah diakses.

Di kebanyakan organisasi, data tidak disimpan di satu lokasi pusat. Mari kita ambil maklumat yang berkaitan dengan pelanggan. Anda mempunyai maklumat hubungan pelanggan, e-mel sokongan pelanggan, maklum balas pelanggan dan sejarah penyemakan imbas pelanggan jika perniagaan anda adalah aplikasi web. Semua data ini secara semula jadi bertaburan, kerana mereka melayani tujuan yang berbeza. Mereka mungkin tinggal di dalam pangkalan data yang berbeza dan ada yang mungkin berstruktur sepenuhnya dan beberapa tidak berstruktur, dan mungkin juga disimpan sebagai fail teks biasa.

Malangnya, keterpencilan kumpulan data ini sangat mengehadkan kerja sains data sebagai asas kepada semua NLP, pembelajaran mesin dan masalah AI adalah data . Jadi, setelah semua data ini dalam satu tempat - datastore - adalah yang paling penting dalam mempercepatkan pembangunan dan penggunaan model. Memandangkan ini adalah sekeping penting untuk semua proses sains data, organisasi perlu menyewa jurutera data yang berkelayakan untuk membantu mereka membina datastore mereka. Ini dapat dengan mudah dimulakan sebagai dump data mudah ke dalam satu lokasi dan perlahan-lahan berkembang menjadi repositori data yang dipertimbangkan dengan baik, didokumenkan sepenuhnya dan ditanyakan dengan alat utiliti untuk mengeksport subset data ke dalam format yang berbeza untuk tujuan yang berbeza.

2. Tunjukkan model anda sebagai perkhidmatan untuk integrasi yang lancar.

Sebagai tambahan untuk membolehkan akses kepada data, juga penting untuk dapat mengintegrasikan model yang dibangunkan oleh saintis data ke dalam produk. Ia boleh menjadi sangat sukar untuk mengintegrasikan model yang dibangunkan dalam Python dengan aplikasi web yang berjalan pada Ruby. Di samping itu, model mungkin mempunyai banyak ketergantungan data yang produk anda mungkin tidak dapat menyediakan.

Salah satu cara untuk menangani perkara ini adalah dengan menyediakan infrastruktur yang kukuh di sekitar model anda dan mendedahkan fungsi yang cukup yang diperlukan oleh produk anda untuk menggunakan model itu sebagai "perkhidmatan web." Contohnya, jika aplikasi anda memerlukan klasifikasi sentimen pada ulasan produk, semua yang perlu dilakukan ialah memanggil perkhidmatan web, menyediakan teks yang relevan dan perkhidmatan itu akan memberikan pengesahan sentimen yang sesuai yang produknya boleh digunakan secara langsung. Dengan cara ini integrasi hanya dalam bentuk panggilan API. Menanggalkan model dan produk yang menggunakannya menjadikannya sangat mudah untuk produk baru yang anda tuju dengan juga menggunakan model ini dengan sedikit kerumitan.

Sekarang, menubuhkan infrastruktur di sekitar model anda adalah keseluruhan cerita yang lain dan memerlukan pelaburan awal yang berat dari pasukan kejuruteraan anda. Setelah infrastruktur ada, ia hanya menjadi model bangunan dengan cara yang sesuai dengan infrastruktur.