The Power In a Name: Analisis Web

PENGUKURAN WEB

Di bawah ini ada beberapa tools yang digunakan untuk mengeukur website dari segi kecepatan akses dan performanya, serta mengukur banyaknya pengunjung suatu website, berikut ini penjelasan mengenai beberapa tools yang digunakan untuk mengukur kecepatan akses website.

Page Rank

Page Rank adalah sebuah algoritma yang telah dipatenkan untuk berfungsi menentukan situs web mana yang lebih penting/populer. Page Rank juga merupakan salah satu fitur utama mesin pencari Google dan diciptakan oleh pendirinya, Larry Page dan Sergey Brin yang merupakan mahasiswa Ph.D. Universitas Stanford.

Sebuah situs akan semakin populer jika semakin banyak situs lain yang meletakan link yang mengarah ke situsnya, dengan asumsi isi/content situs tersebut lebih berguna dari isi/content situs lain. PageRank dihitung dengan skala 1-10.

banyak cara digunakan search engine dalam menentukan kualitas/rangking sebuah halaman web, mulai dari penggunaan META Tags, isi dokumen, penekanan pada content dan masih banyak teknik lain atau gabungan teknik yang mungkin digunakan. Link popularity, sebuah teknologi yang dikembangkan untuk memperbaiki kekurangan dari teknologi lain (Meta Keywords, Meta Description) yang bisa dicurangi dengan halaman yang khusus di desain untuk search engine atau biasa disebut doorway pages. Dengan algoritma ‘PageRank’ ini, dalam setiap halaman akan diperhitungkan inbound link (link masuk) dan outbound link (link keuar) dari setiap halaman web.

PageRank, memiliki konsep dasar yang sama dengan link popularity, tetapi tidak hanya memperhitungkan “jumlah” inbound dan outbound link. Pendekatan yang digunakan adalah sebuah halaman akan diangap penting jika halaman lain memiliki link ke halaman tersebut. Sebuah halaman juga akan menjadi semakin penting jika halaman lain yang memiliki rangking (pagerank) tinggi mengacu ke halaman tersebut.

Kelebihan dari tools Page Rank adalah :

1. Memiliki konsep dasar yang sama dengan link popularity, tetapi tidak hanya memperhitungkan “jumlah” inbound dan outbound link

2. Pendekatan yang digunakan adalah sebuah halaman akan diangap penting jika halaman lain memiliki link ke halaman tersebut. Sebuah halaman juga akan menjadi semakin penting jika halaman lain yang memiliki rangking (pagerank) tinggi mengacu ke halaman tersebut

Kekurangannya adalah :

1. Metode ini juga memiliki pendekatan bahwa seorang user tidak akan mengklik semua link yang ada pada sebuah halaman web.

2. Pendekatan ini yang digunakan pagerank sehingga pagerank dari link masuk (inbound link) tidak langsung didistribusikan ke halaman yang dituju, melainkan dibagi dengan jumlah link keluar (outbound link) yang ada pada halaman tersebut.

Alexa

Alexa merupakan sebuah web informasi yang memberikan ranking bagi sebuah web, tampaknya Alexa bukan karena itu saja sangat dikenal dan diperhitungkan para web surfer tidak hanya diluar seperti di Amerika namun disini juga menjadi semacam tolak ukur untuk menentukan traffic dari sebuah website. Lalu apakah yang dimaksud dengan Alexa Ranks? Alexa Ranks adalah ranking yang diberikan oleh Alexa web dimana ranking tersebut berasal dari total jumlah pengunjung Unique Alexa Toolbar.

Kelebihan dari tools Alexa adalah :

1. Alexa ini membantu dengan memberikan informasi tentang kualitas dan popularitas dari sebuah website

2. Berguna bagi website yang anda memiliki untuk diterima dalam program make money online

3. Membantu anda dalam mengetahui posisi jika terdapat kompetisi dan anda bisa mengetahui volume traffic dari website yang anda miliki

Kekurangannya adalah :

1. Perhitungan algoritma Alexa yang baru dan pastinya ribet, karena sistem ranking yang diberikan oleh Alexa semakin akurat karena Alexa juga memberikan ranking berdasarkan sumber lain juga

2. Mungkin saling cross check dengan Google, Yahoo!, MSN dan website berpengaruh lainnya, dan sudah banyak penurunan ranking yang dialami oleh para webmaster (terutama pemilik blog).

GTmetrix

GTmetrix adalah websiteuntuk menganalisa kecepatan web yang tersedia secara gratis, dengan menggunakan google page speed dan Yahoo Yslow sebagai analyze engine dan untuk menampilkan hasil serta rekomendasi yang harus dilakukan.

Dengan GTmetrix juga dapat membandingkan beberapa URL sekaligus dan jika mendaftar sebagai anggota maka dapat:

1.melihat tes sebelumnya untuk membandingkan hasilnya

2.menjadwalkan cek website secara otomatis

3.menyimpan laporan

4.memilih hasil laporan untuk ditampilkan kepublic atau tidak

Kelebihan GTmetrix :

1.Dapat menggunakan google page speed dan YSLOW sebagai analyze engine.

2.Dapat membandingkan beberapa URL sekaligus

3.Menjadwalkan cek website secara otomatis

4.Dapat menyimpan laporan

5.Memilih hasil laporan untuk ditampilkan kepublic atau tidak.

Kekurangan GTmetrix :

1.Jika menggunakan GTmetrix harus menggunakan internet yang cepat.

Crawlers

Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

Ketika web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking halaman-halamannya

Crawlers pada search engine

Beberapa contoh web crawler:

1.Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2.HTTrack

Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

3.Googlebot

Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

4.Yahoo!Slurp

Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

5.YaCy

Sedikit berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains.

Cara Memasukan Halaman Web Kita ke Dalam Google Crawlers

Tips Agar Sering didatangi oleh Google Crawlers pertama : membuat sitemap dan atau daftar isi

Sitemap (peta situs) blog berfungsi membantu search engine bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi, gunakan plugin bernama Dagon Sitemap Generator. Beberapa themes seperti GoBlog Themes sudah menyediakan sitemap secara default.

Tips Agar Sering didatangi oleh Google Crawlers kedua : mendaftarkan sitemap di Google Webmaster Tools

Sitemap blog anda perlu didaftarkan di Google Webmaster Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google. Daftarkan dulu blog anda di Google Webmaster Tools.

Tips Agar Sering didatangi oleh Google Crawlers ketiga : internal link

Internal link merupakan teknik onpage optimization, yaitu salah satu cara yang digunakan dalam SEO untuk meningkatkan online visibility dari sebuah blog. Internal link adalah link yang mengarah ke dalam blog kita sendiri. Buatlah link tersebut relevan dengan topik yang sedang dibahas. Berapa banyak internal link yang perlu ditambahkan dalam 1 artikel ? Tidak ada patokan, namun buatlah minimal 2 saja. Satu link mengarah ke homepage dan 1 link mengarah ke artikel lain yang kategorinya sejenis atau bahkan mengarah ke artikelnya itu sendiri. Internal link ini sama fungsinya seperti sitemap yaitu memudahkan Google Crawlers menjelajahi blog kita.

Cara kerja crawlers

Tipe dasar dari mesin pencari adalah menggunakan robot yang biasa disebut crawlers atau spider.

Mesin pencari menggunakan jaringan internet untuk mengindeks seluruh website. Ketika kita memasukkan halaman website ke sebuah mesin pencari dengan melengkapi apa yang mesin pencari butuhkan untuk memasukkan halaman website, “spider” mesin pencari akan mengindeks/mendata seluruh website kita. Sebuah “spider” adalah program otomatis yang berjalan melalui sistem mesin pencari. “Spider” mengunjungi sebuah website dengan membaca isi/conten yang teraktual pada Meta Tag website dan juga mengikuti tautan/link yang terkoneksi dengan website tersebut. Kemudian spider akan kembali ke pusat penyimpanan data dengan semua informasi yang telah didapatkannya dimana data itu telah terindeks/tersusun. Beberapa spider hanya menyusun beberapa nomor dari halaman website kita, jadi jangan membuat website dengan 500 halaman!

Secara teratur spider akan kembali ke sebuah website untuk mengecek segala informasi yang telah berubah. Penentuan frekuensinya tergantung pada para moderator dari mesin pencari. Spider hampir mirip seperti buku yang berisi tabel-tabel, isi yang teraktual dan tautan juga referensi untuk semua website itu ditemukan ketika memulai pencarian dan mungkin tersusun dari jutaan halaman sehari.

Contoh mesin pencari : Google, Excite, Lycos, Altavista dan Yahoo.

Search Engine

Mesin pencari atau Search engine adalah program komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan. Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basisdata ataupun direktori web.

Cara kerja Search Engine

1. Proses Crawling

Pada proses ini terdapat istilah spider. Spider ini bertugas mengumpulkan informasi mengenai blog atau situs tersebut. Mulai dari link, struktur HTML, meta tag, judul, hingga konten teks. Spider dapat merayapi blog Anda jika blog anda memiliki file robots.txt. Robots.txt ini berisikan script yang akan diterjemahkan oleh spider sebagai perintah untuk mengumulkan informasi-informasi di atas. Robots.txt juga akan memudahkan spider untuk mengumpulkan data. Proses crawling merupakan proses yang sangat penting, Jika proses crawling tidak berjalan dengan lancar, maka search engine tidak akan mengenali blog Anda.

2. Proses Indexing

Setelah spider sudah mengumpulkan semua informasi blog Anda maka akan disimpan pada database. Penyimpanan ke database ini menggunakan index yang juga mencantumkan alamat URLnya. Penyimpanan ini dilakukan secara berkala untuk mempercepat proses pencarian.

3. Proses Searching

Proses terakhir ini dilakukan berdasarkan perintah pengguna search engine. Ketika user melakukan pencarian dengan keyword yang dikehendaki maka Search engine akan menampilkan database berdasarkan hasil proses indexing. Search engine akan menampilkan judul, cuplikan artikel yang sesuai dengan keyword, dan cuplikan url.

Perbedaan beberapa Searh Engine

Search Engine adalah program komputer yang dirancang untuk membantu seseorang menemukan file-file yang disimpan dalam komputer, misalnya dalam sebuah server umum di web (WWW) atau dalam komputer sendiri. Mesin pencari memungkinkan kita untuk meminta content media dengan kriteria yang spesifik (biasanya yang berisi kata atau frasa yang kita tentukan) dan memperoleh daftar file yang memenuhi kriteria tersebut. Mesin pencari biasanya menggunakan indeks (yang sudah dibuat sebelumnya dan dimutakhirkan secara teratur) untuk mencari file setelah pengguna memasukkan kriteria pencarian. Terdapat bermacam-macam Search Engine seperti : Google, Yahoo, Alltheweb, AltaVista, dll. Kesemuanya memiliki kemampuan seperti yang di jelaskan di atas, akan tetapi dari beberapa Search Engine tersebut kesemuanyapun mempunyai keunggulan dan kekurangannya masing-masing. Berikut adalah karakteristik-karakteristik dari beberapa Search Engine tersebut.

Google : Google : Google dikenal sebagai alat pencarian yang paling cerdas. Meski kita hanya secara sederhana melakukan pencarian dengan memasukkan kata atau beberapa kata saja, Google akan secara otomatis melakukan pencarian dengan logika Boolean dengan menggunakan batasan-batasan AND, NOT, PHRASE, dan OR. Google tidak mendukung pemotongan (truncation), penambahan dan tidak membedakan bentuk huruf besar atau kecil (case sensitive). Kelebihan lain ialah Google menggunakan relevansi dan linking, yaitu jumlah tertentu halaman-halaman sejenis yang berhubungan dengan halaman yang dicari. Google bahkan memungkinkan kita melakukan pencarian dengan menggunakan simbol-simbol tertentu, misalnya untuk stock quotes, peta , dan memberikan pilihan 60 bahasa. Google juga menyediakan file-file berekstensi PDF yang jarang dihasilkan oleh alat-alat pencari lainnya.

Altavista : Altavista : Ciri utama AltaVista yang dapat mengindeks sebanyak lebih dari 550 juta halaman situs ialah penggunaan analisa relevansi teks dan juga penggunaan logika Boolean. Pencarian dapat dilakukan dengan menggunakan kata atau frasa yang tepat sesuai dengan topik yang dicari. Pencarian dapat dibatasi hanya pada bagian-bagian tertentu, misalnya judul, jangkar (anchor), host, link, applet, gambar, dan URL. Keunggulan utama Alta Vista ialah kemampuan menggabung pencarian hanya dengan satu kali pencarian saja.

Alltheweb : Alltheweb : Metode pencarian dalam web ini menggunakan logika Boolean. Kita dapat membatasi pencarian hanya pada judul, teks, nama link, URL, link, bahasa dan domain. Ranking pencarian didasarkan pada relevansi, analisa link, penempatan teks pada halaman tertentu, dan penggunaan kata kunci.

Yahoo : yahoo : Yahoo tidak menggunakan robot dalam membuat direktori informasi, web ini bergantung pada jumlah web site yang didaftarkan di direktori mereka. Sekalipun demikian Yahoo sangat selektif dalam menerima situs-situs yang didaftarkan. Karena Yahoo tidak mempunyai jangkauan yang luas, maka web ini menyediakan mesin pencarian milik Google sebagai pelengkap.

Web Archiving

Pengarsipan web (web Archiving) adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang. Besarnya ukuran Web membuat arsiparis web umumnya menggunakan perangkak web untuk pengumpulan secara otomatis. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkak web ini adalah Internet Archive yang berupaya memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional, dan berbagai konsorsium organisasi lain juga terlibat dalam upaya pengarsipan konten Web yang memiliki nilai penting bagi mereka. Perangkat lunak dan layanan komersial juga tersedia bagi organisasi yang ingin mengarsipkan konten web mereka sendiri untuk berbagai keperluan.

Cara Kerja Web Archiving

Metode Pengarsipan Beberapa metode yang populer dari Web pengarsipan termasuk panen jauh, pengarsipan on-demand, pengarsipan database, dan pengarsipan transaksi.

Panen jarak jauh adalah metode pengumpulan informasi secara otomatis menggunakan Web crawler. Contoh crawler Web populer termasuk Heritrix, HTTrack, Offline Explorer, dan Web Kurator.

On-demand mengacu Web pengarsipan pengarsipan dan mengambil isi internet sesuai dengan kebutuhan spesifik pengguna. Layanan populer meliputi WebCite, Arsip-It, dan Hanzo Arsip.

Database pengarsipan mengacu pada metode pengumpulan konten yang mendasari database-driven situs web dengan mengekstraksi isi database ke skema standar dengan menggunakan XML.

Pengarsipan Transaksional mengumpulkan rincian transaksi aktual antara Web server dan browser Web. Metode ini digunakan untuk menyimpan bukti dari konten dilihat pada halaman Web tertentu pada tanggal tertentu.

Contoh-contoh Web Archiving

Berikut Ini adalah Beberapa Contoh Layanan yg melayani jasa Web Archiving:

Archive-it : Sebuah Layanan Pengarsipan Web Berlangganan yang memperbolehkan sebuah institusi Untuk Membangun, Me-Manage, dan Mecari Arsip web Institusi itu sendiri

Archive.is : Sebuah Layanan Pengarsipan Web Gratis Untuk menyimpan Halaman dan berikut juga Gambar dari sebuah website tertentu. Dan bias menyimpan halaman dari Web 2.0.

Iterasi : Sebuah Layanan Pengarsipan Web yang khusus untuk agensi pemerintahan, organisasi Finansial, brand heritage Dll.

Anggota Kelompok :

Deo Rino Hendro (51411870)

Dimas Ardiyanto (52411102)

Fadhlan Ahdian Pratama (52411564)

Farhan Zahri (52411701)

Indra Satyabrata (58409010)

Shandy Dafutra Hsb (56411721)

2IA16

Sumber :

http://monggomampirr.blogspot.com/2012/06/tools-pengukur-website.html

http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/