Information Retrieval (Sistem Temu-Balik Informasi)


Sistem Temu-Balik Informasi (Information Retrieval) digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suat kumpulan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web yang dibutuhkannya melalui mesin tersebut.

 

BAB I BOOLEAN RETRIEVAL

Sebagaimana didefinisikan, pencarian informasi yang digunakan untuk menjadi sebuah kegiatan yang melibatkan beberapa orang dalam referensi pustakawan, paralegal, dan pencari professional. Dan sekarang ini, ratusan juta orang yang yang terlibat dalam information retrieval ini.

 

Information retrieval (IR) dapat mencakup semua jenis data dan informasi masalah diluar yang ditentukan. Dalam IR dibutuhkan data yang terstruktur, untuk memudahkan pencarian data. Dalam langkah supaya data yang ada terstruktur, data yang ada akan di-index, guna mengatur file yang tidak berstruktur menjadi lebih rapi.

 

BAB I BOOLEAN RETRIEVAL

Sebagaimana didefinisikan, pencarian informasi yang digunakan untuk menjadi sebuah kegiatan yang melibatkan beberapa orang dalam referensi pustakawan, paralegal, dan pencari professional. Dan sekarang ini, ratusan juta orang yang yang terlibat dalam information retrieval ini.

 

Information retrieval (IR) dapat mencakup semua jenis data dan informasi masalah diluar yang ditentukan. Dalam IR dibutuhkan data yang terstruktur, untuk memudahkan pencarian data. Dalam langkah supaya data yang ada terstruktur, data yang ada akan di-index, guna mengatur file yang tidak berstruktur menjadi lebih rapi.

 

I.I CONTOH PERMASALAHAN BOOLEAN RETRIEVAL

Bentuk yang paling sederhana adalah pengambilan dokumen untuk sebuah komputer untuk melakukan semacam linear scan melalui dokumen. Proses ini biasanya disebut sebagai grepping melalui teks, setelah perintah Unix grep, yang melakukan proses ini. Grepping melalui teks yang dapat menjadi proses yang sangat efektif, terutama mengingat kecepatan komputer modern, dan seringkali memungkinkan kemungkinan berguna untuk pencocokan pola wildcard melalui penggunaan . Dengan komputer modern, untuk query sederhana koleksi sederhana, Anda benar-benar tidak membutuhkan apa-apa lagi.

 

Tapi untuk berbagai tujuan, Anda perlu lebih banyak:

 

  1. Untuk memproses koleksi dokumen yang besar dengan cepat. Jumlah data online telah tumbuh setidaknya secepat kecepatan komputer, dan kami sekarang ingin dapat mencari koleksi yang total dalam urutan triliunan miliar untuk kata-kata.

     

  2. Untuk memungkinkan operasi pencocokan lebih fleksibel. Sebagai contoh, adalah tidak praktis untuk melakukan query Roma DEKAT senegara dengan grep, di mana mungkin DEKAT didefinisikan sebagai “ dalam 5 kata”atau “ dalam kalimat yang sama”.

     

Untuk memungkinkan pengambilan peringkat: dalam banyak kasus Anda ingin jawaban terbaik untuk sebuah kebutuhan informasi di antara banyak dokumen yang mengandung kata-kata tertentu.

 

I.II LANGKAH PERTAMA MEMBANGUN SEBUAH INDEX TERBALIK

Untuk mendapatkan manfaat kecepatan pengambilan pengindeksan pada waktu, kita harus membangun indeks di muka. Langkah-langkah utama dalam hal ini adalah:

 

Mengumpulkan dokumen untuk diindeks:

 

 

Tokenize teks, mengubah setiap dokumen menjadi daftar token:

 

 

Apakah linguistik preprocessing, menghasilkan daftar token dinormalisasi, yang merupakan istilah pengindeksan:

 

Mengindeks dokumen yang terjadi pada setiap istilah dengan menciptakan indeks terbalik, yang terdiri dari sebuah kamus dan posting.

 

Kita akan mendefinisikan dan mendiskusikan tahap-tahap awal pengolahan, yaitu langkah 1-3, dalam Bagian 2,2 . Sampai saat itu Anda dapat memikirkan tanda-tanda bukti dan normal seperti juga longgar setara dengan kata-kata. Di sini, kita asumsikan bahwa 3 langkah pertama telah dilakukan, dan kita kaji terbalik membangun dasar indeks oleh semacam berbasis pengindeksan.

 

I.IIIPENGOLAHAN BOOLEAN QUERY

Bagaimana kita memproses permintaan menggunakan indeks terbalik dan dasar pengambilan Boolean model? Pertimbangkan memproses kata penghubung sederhana query:

 

 

atas indeks terbalik sebagian ditunjukkan pada Gambar 1,3. Kami:

 

  1. Cari Brutus di Kamus

     

     

  2. Ambil yang posting

     

  3. Cari Calpurnia di Kamus

     

  4. Ambil yang posting

     

  5. Memotong dua daftar posting, seperti yang ditunjukkan pada Gambar 1,5.

     

Persimpangan (Intersection) penting sekali: kita perlu daftar posting berpotongan efisien sehingga dapat dengan cepat menemukan dokumen yang mengandung kedua istilah. (Operasi ini kadang-kadang disebut sebagai penggabungan daftar posting: nama ini mencerminkan sedikit berlawanan dengan menggunakan istilah menggabungkan algoritma untuk keluarga umum algoritma yang menggabungkan beberapa daftar diurutkan oleh interleaved maju dari pointer melalui masing-masing, di sini kita menggabungkan daftar dengan logic operator AND ).

 

 

Gambar: memotong daftar posting untuk Brutus dan Calpurnia dari Gambar 1,3.

 

Gambar 1.6: Algoritma untuk persimpangan dua daftar posting dan .

 

Ada sebuah metode yang sederhana dan efektif persilangan daftar posting menggunakan gabungan algoritma (lihat Gambar 1,6): kita mempertahankan pointer ke kedua daftar dan berjalan melalui dua daftar posting secara bersamaan, dalam waktu linier dalam jumlah total posting entri. Pada setiap langkah , kita membandingkan docID menunjuk ke oleh kedua pointer. Jika mereka adalah sama, kita menempatkan bahwa docID dalam daftar hasil, dan memajukan kedua pointer. Kalau tidak, kami memajukan pointer menunjuk ke docID yang lebih kecil. Jika panjang dari daftar posting dan , Persimpangan mengambil operasi . Secara formal, tingkat kerumitan query adalah , di mana adalah jumlah dokumen dalam koleksi.

 

Metode pengindeksan kami mendapatkan kita saja yang konstan, bukan perbedaan dalam dibandingkan dengan kompleksitas waktu linear scan, tetapi dalam prakteknya konstan sangat besar. Untuk menggunakan algoritma ini, sangat penting bahwa posting akan diurutkan oleh satu memesan global. Menggunakan numerik sort by docID merupakan salah satu cara sederhana untuk mencapai hal ini.

 

PERLUASAN BOOLEAN RETRIEVAL VS PERINGKAT PENCARIAN

Pengambilan Boolean model yang kontras dengan Pengambilan peringkat model seperti model ruang vektor (Pasal 6,3), di mana sebagian besar pengguna menggunakan teks bebas pertanyaan, yaitu, hanya mengetik satu atau lebih kata-kata daripada menggunakan bahasa yang tepat dengan operator untuk membangun ekspresi pencarian, dan sistem dokumen memutuskan yang terbaik yang memenuhi syarat. Meskipun dekade penelitian akademis mengenai kelebihan dari peringkat pengambilan, melaksanakan sistem pencarian Boolean model yang utama atau hanya pilihan pencarian yang disediakan oleh penyedia informasi komersial yang besar selama tiga dekade hingga awal 1990-an (kira-kira tanggal kedatangan World Wide Web). Namun demikian, sistem ini tidak memiliki dasar hanya Boolean operasi (AND, OR, dan NOT) yang telah kami sajikan sejauh ini. Sebuah ekspresi Boolean ketat atas istilah dengan hasil unordered set terlalu terbatas untuk banyak kebutuhan informasi bahwa orang memiliki, dan sistem-sistem ini diterapkan model-model pencarian Boolean diperluas dengan memasukkan operator tambahan seperti kedekatan istilah operator. A kedekatan operator adalah suatu cara untuk menentukan bahwa dua istilah dalam query harus terjadi dekat satu sama lain dalam dokumen, di mana kedekatan dapat diukur dengan membatasi jumlah yang diizinkan campur tangan kata-kata atau dengan mengacu pada unit struktural seperti kalimat atau paragraf.

 

BAB II ISTILAH KOSAKATA DAN DAFTAR POSTING

Mengingat langkah-langkah utama dalam indeks terbalik konstruksi:

 

  1. Mengumpulkan dokumen untuk diindeks.

     

     

  2. Tokenize teks.

     

  3. Apakah token preprocessing linguistik.

     

  4. Mengindeks dokumen yang terjadi setiap istilah masuk

     

Dalam bab ini pertama-tama kita secara singkat menyebutkan bagaimana unit dasar dari sebuah dokumen dapat didefinisikan dan bagaimana karakter itu terdiri dari urutan yang ditentukan. Kami kemudian memeriksa secara rinci beberapa masalah linguistik substantif tokenization dan linguistik preprocessing, yang menentukan kosakata istilah-istilah yang menggunakan system. Tokenization adalah proses memotong aliran karakter ke bukti, sementara linguistik preprocessing kemudian berurusan dengan bangunan kelas kesetaraan token yang merupakan himpunan istilah yang diindeks. Pengindeksan itu sendiri dibahas dalam Bab 1 4. Kemudian kami kembali ke daftar posting pelaksanaan

 

Penggambaran dokumen dan decoding urutan karakter

Perolehan urutan karakter dalam dokumen

Dokumen digital yang diinput ke sebuah proses pengindeksan biasanya byte di file atau di web server. Langkah pertama pengolahan adalah untuk mengubahnya byte urutan ke urutan linear karakter. Untuk kasus polos English teks dalam pengkodean ASCII, hal ini sepele. Tetapi sering hal mendapatkan jauh lebih kompleks. Urutan karakter dapat dikodekan oleh salah satu dari berbagai dosagle multibyte byte atau skema pengkodean, seperti Unicode UTF-8, atau berbagai nasional atau standar khusus vendor. Kita perlu menentukan benar encoding. Ini dapat dianggap sebagai masalah klasifikasi pembelajaran mesin, seperti dibahas dalam Bab 13 , tetapi sering ditangani oleh metode heuristik, pengguna seleksi, atau dengan menggunakan metadata dokumen yang disediakan. Setelah enkoding ditentukan, kita decode byte urutan ke urutan karakter. Kita mungkin menyimpan pilihan pengkodean karena memberikan beberapa bukti tentang bahasa apa yang dituliskan dalam dokumen .

Memilih unit dokumen

Tahap berikutnya adalah untuk menentukan apa yang unit untuk mengindeks dokumen ini. Sejauh ini kita telah mengasumsikan bahwa dokumen tetap unit untuk keperluan pengindeksan. Sebagai contoh, kita mengambil setiap file dalam folder tersebut sebagai sebuah dokumen. Tetapi ada banyak kasus di mana Anda mungkin ingin melakukan sesuatu yang berbeda. Unix tradisional (mbox-format) menyimpan file email urutan pesan email (folder email) dalam satu file, tapi Anda mungkin ingin menganggap setiap pesan email sebagai dokumen terpisah. Banyak pesan email sekarang berisi dokumen terlampir, dan Anda mungkin kemudian ingin menganggap pesan email dan masing-masing berisi lampiran sebagai dokumen terpisah. Jika pesan email yang terlampir file zip, Anda mungkin ingin men-decode file zip dan menganggap setiap berkas itu berisi sebagai dokumen terpisah. Pergi ke arah yang berlawanan, berbagai potongan perangkat lunak web (seperti latex2html) mengambil barang-barang yang mungkin Anda menganggap sebagai sebuah dokumen tunggal (misalnya, sebuah file atau Powerpoint L A T E X dokumen) dan membagi mereka ke dalam halaman HTML terpisah untuk setiap slide atau subbagian, disimpan sebagai file terpisah. Dalam kasus ini, Anda mungkin ingin untuk menggabungkan beberapa file ke dalam satu dokumen.

 

 

Menentukan kosakata istilah

Penandaan(Tokenization)

Diberi urutan karakter dan dokumen yang ditetapkan unit, tokenization adalah tugas memotong itu berkeping-keping, yang disebut bukti, mungkin pada waktu yang sama membuang karakter tertentu, seperti tanda baca. Berikut adalah contoh dari tokenization:

 

Input: Friends, Roma, senegara, meminjamkan telinga Anda;

 

Output :

 

Token ini seringkali longgar disebut sebagai istilah atau kata-kata, tetapi kadang-kadang penting untuk membuat suatu jenis / token perbedaan. Sebuah token adalah sebuah contoh dari urutan karakter dalam dokumen tertentu yang dikelompokkan bersama sebagai unit semantik yang berguna untuk diproses. Sebuah jenis kelas dari semua token mengandung urutan karakter yang sama. Sebuah istilah adalah (mungkin dinormalkan) jenis yang disertakan dalam sistem IR kamus. Himpunan istilah indeks dapat sepenuhnya berbeda dari token, misalnya, mereka bisa semantik pengidentifikasi dalam taksonomi, tetapi dalam prakteknya sistem IR modern mereka sangat terkait dengan token dalam dokumen. Namun, alih-alih persis token yang muncul dalam dokumen, mereka biasanya berasal dari mereka oleh berbagai proses normalisasi.

 

Sebagai contoh, jika dokumen untuk diindeks adalah tidur barangkali untuk bermimpi, maka terdapat 5 bukti, tetapi hanya 4 jenis (karena ada 2 hal). Namun, jika untuk dihilangkan dari indeks.

Maka akan ada hanya 3 ketentuan: tidur, barangkali, dan mimpi.

 

Menjatuhkan istilah umum : kata-kata henti

 

 

Gambar 2.5: Sebuah daftar dari 25 berhenti non-selektif semantik kata-kata yang umum untuk Reuters-RCV1.

Terkadang, beberapa kata yang sangat umum akan tampak nilai kecil dalam membantu pilih dokumen sesuai kebutuhan pengguna dikecualikan dari kosakata sama sekali. Kata-kata ini disebut kata-kata henti. Strategi umum untuk menentukan daftar menghentikan untuk menyortir istilah oleh koleksi frekuensi (jumlah kali setiap istilah muncul dalam koleksi dokumen), dan kemudian untuk mengambil istilah yang paling sering, sering tangan-disaring untuk konten semantik mereka relatif terhadap domain dari dokumen-dokumen yang diindeks, sebagai berhenti daftar, anggota yang kemudian dibuang selama pengindeksan. Contoh daftar berhenti ditampilkan pada Gambar 2,5. Menggunakan daftar berhenti secara signifikan mengurangi jumlah posting bahwa suatu sistem memiliki untuk menyimpan. Dan sering kali kata-kata tidak menghentikan pengindeksan tidak banyak merugikan: pencarian kata kunci dengan istilah-istilah seperti dan tampaknya tidak banyak berguna. Namun, hal ini tidak benar untuk frase pencarian. “ Query ungkapan Presiden Amerika Serikat”, yang berisi dua kata-kata henti, adalah lebih tepat daripada Presiden DAN “ Amerika Serikat”. Yang dimaksud dengan penerbangan ke London adalah kemungkinan besar akan hilang jika kata adalah berhenti keluar. Pencarian untuk Vannevar Bush artikel Sebagaimana kita mungkin berpikir akan sulit jika ketiga kata itu pertama berhenti keluar, dan sistem hanya mencari dokumen yang mengandung kata berpikir. Beberapa jenis permintaan khusus proporsional terpengaruh. Beberapa judul lagu dan terkenal potongan-potongan ayat seluruhnya terdiri dari kata-kata yang umum pada daftar menghentikan (Untuk dapat atau tidak dapat, Let It Be, aku tidak ingin menjadi, …).

 

download disini….

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s