Rumah Pembangunan Apakah tokenisation? - definisi dari techopedia

Apakah tokenisation? - definisi dari techopedia

Isi kandungan:

Anonim

Takrifan - Apakah maksud Tokenisasi?

Pengenalogian adalah perbuatan memecahkan urutan rentetan kepada kata-kata, kata kunci, frasa, simbol dan unsur-unsur lain yang disebut token. Token boleh menjadi kata-kata, frasa atau ayat keseluruhan. Dalam proses penyambungan, beberapa aksara seperti tanda baca dibuang. Token menjadi input untuk proses lain seperti parsing dan perlombongan teks.

Tokenisasi digunakan dalam sains komputer, di mana ia memainkan peranan yang besar dalam proses analisis leksikal.

Techopedia menerangkan Tokenisasi

Tokenization bergantung pada heuristik mudah untuk memisahkan token dengan mengikuti beberapa langkah:

  • Token atau perkataan dipisahkan oleh ruang kosong, tanda baca atau pecahan baris
  • Ruang putih atau tanda baca mungkin atau tidak boleh disertakan bergantung kepada keperluan
  • Semua aksara dalam rentetan bersambung adalah sebahagian daripada token. Token boleh terdiri daripada semua aksara alfa, aksara abjad angka atau aksara angka sahaja.

Token sendiri juga boleh menjadi pemisah. Sebagai contoh, dalam kebanyakan bahasa pengaturcaraan, pengenal boleh diletakkan bersama-sama dengan pengendali aritmetik tanpa ruang putih. Walaupun seolah-olah ini akan muncul sebagai satu perkataan atau token, tatabahasa bahasa itu sebenarnya menganggap pengendali matematik (token) sebagai pemisah, jadi walaupun beberapa tanda dibongkar bersama, mereka masih boleh dipisahkan melalui matematik pengendali.

Apakah tokenisation? - definisi dari techopedia