احتمالأ همگی شما سایت Rapidshare.com را میشناسید. بزرگترین سایت آپلود و به اشتراک گذاری فایل ها که البته در ایران به دلیل محدودیت هایی که دارد چندان محبوب نیست ، اما به علت معروفیت و امکانات فراوان بسیاری از لینک های دانلود فایل ها در این سایت قرار دارد. طبعأ این گستردگی و عظمت سایت راپیدشیر موجب میشود فایلهای بسیار زیادی اعم از بازی ها ، برنامه ها ، موزیک ها ، ویدئوها و ... در این سایت توسط کاربران به شکل عمومی آپلود شده باشد. اما تا زمانی که لینک دانلود در اختیار شما قرار نگیرد امکان دانلود این فایلها را نخواهید داشت. موتورهای جستجوی متعددی نیز برای جستجو در راپیدشیر ساخته شده اند که همگی تقریبأ چندان کارآمد نیستند. در این ترفند قصد داریم به معرفی روش فوق العاده بپردازیم که با بهره گیری از موتور جستجوی معروف گوگل بتوان محتویات راپیدشیر را جستجو کرد!!!
برای این کار:
کافی است ابتدا وارد گوگل شوید.
اکنون در قسمت مربوط به جستجو ، عبارت های زیر را بعد از “site:rapidshare.com” تایپ کرده و Enter بزنید.
برای کتاب های الکترورنیک با فرمت PDF از “inurl:pdf” استفاده کنید.
برای فایل های ویدیویی از “inurl:avi|wmv|mpg|3gp” استفاده کنید.
برای فایل های صوتی از “inurl:mp3|ogg|wma” استفاده کنید.
برای فایل های اجرایی از “inurl:exe” استفاده کنید.
برای فایل های فشرده “inurl:zip|rar|7zip|tar” استفاده کنید.
به عنوان مثال اگر شما به دنبال نرم افزار Google Earth با فرمت Zip می گردید باید در گوگل عبارت زیر را (بدون ” ” ها ) جستجو کنید :
“site:rapidshare.com inurl:zip google earth”
برای جستجوی یک فایل PDF که فرضأ نام آن Kamyabonline باشد عبارت زیر را در گوگل جستجو کنید:
“site:rapidshare.com inurl:pdf Kamyabonline”
و به این ترتیب پیرامون کلیه فایلهای دیگر نیز از فرمول های فوق کمک بگیرید.
نگاهی کوتاه به گوگل
لری پیج و سرگی برین (Sergey Brin - Larry Page) دو دانشجوی دکترای دانشگاه استنفورد، هفتم سپتامبر 1998 گوگل را ثبت کردند.
آنها همزمان با شروع سال 1996 کار روی پروژه دکترای خود را آغاز کرده بودند، پروژهای که قرار بود در آن موتور جستجوی اینترنتی طراحی شود که با روشهای جدید جستجو دقت را بالا ببرد.
پیش از پیدایش گوگل، منطق موتورهای جستجوی اینترنتی اینگونه بود که سایتهای مرتبط را با توجه به تعداد تکرار کلمات مورد جستجو مییافتند.
آلری پیج و سرگی برین، نام خودمانی پروژه خود را "BackRub" گذاشته بودند زیرا موتور جستجوگر آنها لینکهای پشتیبانی سایتها را بررسی میکرد و بر همان مبنا میزان اهمیت آنها را در نتایج جستجو تعیین میکرد. البته در همان زمان یک سایت کوچک دیگر هم با روشی مشابه کار میکرد. سایتی با نام RankDex.
موتور جستجوگر آنها ابتدا با دامنه google.stanford.edu استفاده میشد. این دو دوست و همکار در 14 سپتامبر سال 1977 دامنه google.com را ثبت کردند.
آنها در هفتم سپتامبر سال 1998 کمپانی گوگل را ثبت کردند. سرمایه اولیه شرکت آنها به یک میلیون دلار میرسید.
در ماه مارس سال 1999 کمپانی که دفترش در گاراژ یکی از دوستان در "منلو پارک" بود، به دفتری در خیابان 165 دانشگاه در "پالو آلتو" منتقل شد. در همان سال 1999 با بالا گرفتن کار کمپانی، شرکت به ساختمان کنونی گوگل منتقل شد.
این ساختمان مجموعهای از چند ساختمان است که امروزه با نام Googleplex شناخته میشود. این نام خود بازی با کلمات است. Googolplex نامیاست که به عدد 10 به توان 10 به توان 100 دادهاند. در عین حال به دو کلمه google و complex هم میتواند اشاره کند.
افزایش تعدا کاربران اینترنتی سود زیادی را عاید گوگل کرد. کاربران جذب طراحی ساده، بدون پیچیدگی و تمیز آن شدند. البته طراحی سایت، کپی از یک موتور جستجوگر دیگر با نام Altavista بود اما به همراه روش منحصربفرد گوگل در جستوجو.
در سال 2000 میلادی گوگل فروش تبلیغات همراه کلمات کلیدی را آغاز کرد. در این روش، گوگل به ازای هر کلیکی که روی سایت میشود، 0.05 دلار میگیرد. البته این میزان بسته به کلمه کلیدی افزایش مییابد.
نکته مهم در این تبلیغات این است که به صورت متن هستند زیرا گوگل نمیخواست به طراحی ساده و بیشیله پیله سایت آسیبی وارد شود. همچنین این کار سرعت بارگذاری سایت را هم کم نمیکند.
با گسترش تعداد کاربرانی که از گوگل به عنوان موتور جستجو استفاده میکردند، رقابت گوگل هم با کمپانیهای جریان اصلی کامپیوتر آغاز شد. نمونه این رقابتها رقابت گوگل با شرکت مایکروسافت است.
کمکم گوگل گستره فعالیتهایش را به دنیای خارج از اینترنت و به دنیای رادیو و مطبوعات کاغذی هم کشاند. در 17 ژانویه سال 2006، کمپانی گوگل اعلام کرد که یک شرکت تبلیغات رادیویی را با نام dMarc خریداری کردهاست. شرکتی که سیستم خودکاری برای آگهی دادن در رادیو طراحی کرده است.
گوگل همچنین فروش تبلیغات به روزنامهها و مجلات را هم تجربه کرد. نخستین تجربه این چنینی گوگل در روزنامه شیکاگو سان تریبیون بود که فضاهایی را که برای تبلیغات در نظر گرفته شده بود اما تبلیغی برای آن نیامده بود؛ پر میکرد.
رفاه در شرکت گوگل
این روزها کار کردن در کمپانی گوگل به شغلی رویایی تبدیل شده است. داستانهایی که از کیفیت خدمات ارائه شده به کارمندان در این شرکت گفته میشود، سبب شده سالانه تعداد زیادی از افراد در سراسر دنیا رویای کار کردن برای این شرکت را در سر بپرورانند.
حقوق کارکنان گوگل پایین است. حقوق متوسط یک مدیر شبکه در این شرکت 33 تا 40 هزار دلار در سال است که نسبت به حقوقهای مشابه پایین محسوب میشود. اما آنچه منبع درآمد اصلی کارکنان گوگل محسوب میشود، سهام گوگل است.
ارزش سهام گوگل بالاست و در این سالها هم رشد زیادی داشته است. در سال 2004 بنیانگذاران گوگل، سرگی برین و لری پیج اعلام کردند که حقوق سالانه آنها از شرکت یک دلار خواهد بود. «اریک اشمیت»، مدیر شرکت نیز چنین حقوقی را درخواست کرد.
در سال 2005 مجله فوربس اعلام کرد سرگی برین با 14.1 میلیارد دلار و لری پیج با 14 میلیارد دلار دوازدهمین و سیزدهمین افراد پولدار در آمریکا هستند.
فیلترها چگونه کار می کنند
همه روزه کاربران پست الکترونیک ،Inbox خود را مملو از پیامهائی می بینند که از سوی اشخاص ناشناس و تحت عناوین و موضوعات مختلف و پیشنهادی، برای چیزهائی که نمی خواهند و نیازی به آنها ندارند ارسال شده است.
این پیام های ناخواسته یا Spam،باعث می شود که کاربران پست الکترونیک ،همه روزه زمان زیادی را برای حذف این پست های بی ارزش از Inbox خود هدر دهند.گزارش زیر مربوط به مشکلات این هرزنامه ها است.
Email considered Spam |
40% of all email |
Daily Spam emails sent |
12.4 billion |
Daily Spam received per person |
6 |
Annual Spam received per person |
2,200 |
Spam cost to all non-corp Internet users |
$255 million |
Spam cost to all |
$8.9 billion |
States with Anti-Spam Laws |
26 |
Email address changes due to Spam |
16% |
Estimated Spam increase by 2007 |
63% |
Annual Spam in 1,000 employee company |
2.1 million |
Users who reply to Spam email |
28% |
Users who purchased from Spam email |
8% |
Corporate email that is considered Spam |
15-20% |
Wasted corporate time per Spam email |
4-5 seconds |
از طرفی گاهی اوقات، پست های مهم بدلیل پرشدن ظرفیت Inbox پستی افراد توسط این پیام های ناخواسته از بین می روند.
اگرچه کاربران پست الکترونیک از فرستندگان این پیام های ناخواسته درخواست می کنند که از ارسال مجدد این پیام ها خودداری کنند اما بعضی از Spamها بصورت ارادی و از طرف شخصی خاص، ارسال نمی شود که بتوان آنها را ردیابی کرد و تحت پیگرد قرار داد.
خبر خوب این است که می توان با Spamها مبارزه کرد. چندین تکنیک معتبر و در دسترس برای دفاع از حجوم این نامه های ناخواسته به درون Inbox پست الکترونیکی وجود دارد ،که از آنجمله می توان به بستن و مسدود کردن آدرس ها و ردیابی کلمات کلیدی گنجانده شده در این هرزنامه ها اشاره کرد.همچنین تکنیکی وجود دارد که هرزنامه ها را بصورت خودکار فیلتر کرده و از این طریق از Inbox پست الکترونیکی محافظت می کند.در ادامه به بررسی برخی از تکنیک های موجود در این زمینه می پردازیم:
لیست سیاه و سفید
در این روش ،کاربر علاوه بر مسدود کردن آدرس های معروف Spam ،لیستی از آدرس های قابل اطمینان را به عنوان لیست سفید(لیست سایت های معتبر) سازماندهی می کند که آدرس های موجود در این لیست میتوانند مستقیما وارد Inbox کاربران شوند و در مقابل این امکان برای کاربر وجود دارد که آدرس هائی که پیام های ناخواسته ارسال می کنند را تحت عنوان لیست سیاه مسدود، و مستقیم به فولدر پیام های زائد(Spam folder) هدایت کند.
در این تکنیک،یک الگوریتم به تمام کاراکترهای موجود در پست الکترونیک یک ارزش عددی اختصاص می دهد که برای محاسبه کد نمایندگی همان آدرس پستی استفاده می شود. این کد با پایگاه داده ای از کدهای هرزنامه های شناخته شده چک شده و در صورت مطابقت مسدود می شود. در واقع این الگوریتم ،تکنیک مناسبی به منظور مبارزه با پیام های ناخواسته می باشد.
Bayesian Filtering
کلمات ویژه و خاص ،احتمالات خاصی هستند که ممکن است هم در هرزنامه ها و هم در پستهای الکترونیک عادی دیده شوند. برای مثال ،اغلب کاربران پست الکترونیکی ،بارها با کلمه "کاهش وزن" در هرزنامه ها روبرو شده اند ،اما به ندرت این کلمه را در پست های عادی نیز مشاهده کرده اند. مکانیزم فیلترینگ به این احتمالات آگاه نبوده و توانائی پیشبرد عملیات فیلترینگ را ندارد و ناگزیر ،ابتدا باید هدایت شود. برای هدایت مکانیزم فیلتر ،کاربر باید بصورت دستی نشان دهد که پست جدید دریافت شده ،هرزنامه است یا خیر. مکانیزم فیلتر در پایگاه داده خود برای تمام کلمات موجود در پست الکترونیک هدایت شده توسط کاربر (هرزنامه و یا پست عادی) ،یک احتمال درنظر می گیرد. البته این مکانیزم فیلترینگ بطور نمونه به شمار بسیاری از کلمات احتمالی هرزنامه ها آگاه است ،با این وجود شمار بسیار کمی از کلمات احتمالی هرزنامه ها ممکن است در پستهای الکترونیک عادی نیز دیده شوند.
سخن پایانی
معمولا ،نمی توان جلوی تمام هرزنامه ها را گرفت ،اما با بهره برداری از Spamفیلترها ،می توان باعث کاهش حجم بسیاری از پیام های ناخواسته ای شد که همه روزه در Inbox پستی خود دریافت می کنید. بنابراین ،تنها راه برای مبارزه با هرزنامه ها ،فعال کردن فیلترینگ پست الکترونیکی به منظور مراقبت و بررسی مداوم پست های وارده و یافتن پیام های ناخواسته در میان این پست ها با جستجو در مضامین و مفاهیم آنها و کمک به پاک ماندن Inbox پست الکترونیکی می باشد.
Spider
نرم افزاری است که کار جمع آوری اطلاعات از صفحات مختلف را بر عهده دارد.
Crawler
نرم افزاری که مسیر حرکت اسپایدر را مشخص می کند.
Directory
فهرست: نوعی از موتورهای جستجوگر که پایگاه داده آن توسط ویراستاران تکمیل می گردد.
Keyword
بــه واژه ها ی مهم (کلیدی) هر صفحه گفته می شود: اما غالبا" منظور کلماتی است که دوست داریم با آنها رتبه های مناسبی کسب کنیم.
Keyword Density
چگالی کلمه، منظور تعداد دفعات تکرار واژه های کلیدی در مقایسه با سایر کلمات متن است.
Keyword Staffing
تکرار یک کلمه به دفعات و پشت سر هم به منظور بالا بردن چگالی کلمه: این کار تقلب محسوب می شود.
Tinny Text
نوشتن متن با اندازه های بسیار کوچک و ریز به گونه ای که کلمات بسیاری بدین ترتیب در یک خط قرار داده می شود و به سختی نیز در صفحه قابل رویت هستند. نوشتن مطالب به این صورت، تقلب محسوب است.
Invisible Text
متن نامرئی: منظور استفاده از متن های همرنگ با پس زمینه صفحه است. متن هایی که از دید کاربران مخفی می ماند. به عنوان مثال اگر پس زمینه یک صفحه سیاه است، متن صفحه نیز با رنگ سیاه نوشته می شود تا دیده نشود . این نوع متن ها از مصادیق تقلب می باشند.
Spam
تقلب، به تمام تلاش هایی گفته می شود که به کمک آن سعی می شود از راه های غیر معمول، رتبه های بالایی کسب شود. یا در اختیار گذاردن اطلاعاتی که موتورهای جستجوگر آنرا دوست ندارند (اطلاعات ناخواسته) مانند تکرار یک کلمه به دفعات و پشت سر هم، استفاده از متن های هم رنگ زمینه و ...
ALT tag
محتوای این شناسه، متنی است که یک عکس را توضیح می دهد.
Deep Crawl
به معنای این است که موتور جستجوگر، می تواند صفحات زیادی از یک سایت را در پایگاه داده اش قرار دهد. موتور جستجوگر هرچه پایگاه داده اش بزرگتر باشد، صفحات بیشتری از یک سایت را می تواند در پایگاه داده اش قرار دهد. همه موتورهای جستجوگر دارای این ویژگی نمی باشند.
Robots.txt
با این فایل متنی و ساده، میزان دسترسی موتور جستجوگر به محتوای یک "سایت" را می توان کنترل کرد.
META robots tag
به کمک این شناسه میزان دسترسی موتور جستجوگر به محتوای یک "صفحه" را می توان کنترل کرد.
Link
پیوند: در واقع پلی بین دو صفحه است. به کمک آن می توان از یک صفحه به صفحه دیگر رفت.
Link Popularity
مقصود این است که چه تعداد از سایت های دیگر به سایتی مشخص لینک کرده اند یا اینکه از چند سایت دیگر می توان به کمک پیوندها به سایتی مشخص رفت.
Link Reputation
اشاره به این دارد که سایر سایتها درباره سایتی که بدان لینک داده اند، چه می گویند. عموما در این موارد عنوان، متن لینک و کلمات اطراف لینک در سایت مقصد، بررسی می شوند.
Learn Frequency
بعضی از موتورهای جستجوگر می توانند تشخیص دهند که محتوای صفحات پس از چه مدتی تغییر می کند (به روز می گردد) و بعد از آن مدت به آن صفحات مراجعه می کنند.
URL-Uniform Resource Locator
به آدرس منحصر به فرد هر منبع موجود در اینترنت گفته می شود. این منبع می تواند یک صفحه وب، یک فایل متنی و... باشد
Stop Word
به کلماتی گفته می شود که در کل اینترنت از آنها بسیار استفاده شده است. کلماتی نظیرthe, a, an, web www, home page, و ...
Meta tags
به کمک این شناسه ها، اطلاعاتی از صفحه در اختیار بینندگان (موتور جستجوگر، مرورگرها و ...) قرار داده می شود.
META Keywords
به کمک آن، کلمات کلیدی صفحه در اختیار موتورهای جستجوگر قرار داده می شود.
META Description
به کمک آن، توضیحی مختصر از صفحه در اختیار موتورهای جستجوگر قرار داده می شود.
Stemming
به معنای این است که موتور جستجوگر می تواند صورت های مختلف یک کلمه را جستجو کند. به عنوان مثال با جستجوی swim موتور جستجوگر به دنبال swimmer ، swimming نیز می گردد. همه موتورهای جستجوگر دارای این ویژگی نمی باشند.
Rank
رتبه یک صفحه در نتایج جستجو است زمانی که جستجویی مرتبط با محتوای آن صفحه انجام می شود.
Spamdexing
مختصر شده spam indexing است، منظور طراحی و معرفی صفحاتی به موتورهای جستجوگر است که کیفیت نتایج جستجو را پایین می آورند. موتورهای جستجوگر تمایل دارند که کاربران بارها و بارها به آنها مراجعه کنند و کیفیت بالای نتایج می تواند این روند را تضمین کند. لذا آنها هرکدام به نوعی سعی در تشخیص صفحاتی دارند که کیفیت نتایج جستجو را پایین می آورد. برخی از این موارد عبارتند از: ساختن صفحاتی که همگی دارای محتوای یکسانی اند، تکرار یک کلمه بیش از حد و ...
Comment
توضیحاتی است که طراحان سایت در لا به لای کدهای HTML می گنجانند تا برای فهمیدن وظیفه بخش های متفاوت کدهای HTML در مراجعات آتی نیازی به صرف وقت بسیار نداشته باشند.