মূল স্ক্রিপ্ট কোড দিয়ে এখনই শুরু করা যাক:
#!/usr/bin/perl
# which-forum.pl স্ক্রিপ্ট
# (গ) 2010 আলেকজান্ডার এ আলেক্সিভ, http://site/
কঠোর ব্যবহার করুন;
# মন্তব্য করা লাইন - কঠোরতার জন্য
# যদি কাজটি ইঞ্জিনের পরিসংখ্যান সংগ্রহ করা হয় তবে এটিকে যেমন আছে তেমনই রেখে দিন
# আপনি যদি ফোরামের একটি তালিকা তৈরি করেন - মন্তব্য করুন
আমার $ডেটা;
$ডেটা .= $_while (<>
)
;
# ফুটারে একটি লিঙ্ক ছাড়াই phpBB দ্বারা কতটা চালিত হয়েছে তা পরীক্ষা করুন৷ আপনি এই আর্কাইভে পোস্টে উল্লিখিত এটি এবং অন্যান্য স্ক্রিপ্টগুলি পাবেন৷ লিপি which-forum.plফোরাম ইঞ্জিনের স্বাক্ষর রয়েছে কিনা তা দেখতে HTML পৃষ্ঠা কোড পরীক্ষা করে। ওয়ার্ডপ্রেস এবং জুমলা সংজ্ঞায়িত করার সময় আমরা একটি অনুরূপ কৌশল ব্যবহার করেছি, তবে কয়েকটি পার্থক্য রয়েছে। প্রথমত, স্ক্রিপ্ট নিজেই পৃষ্ঠা কোড লোড করে না, তবে এটি stdin বা একটি যুক্তি হিসাবে পাস করা ফাইল থেকে পড়ে। এটি আপনাকে পৃষ্ঠাটি একবার ডাউনলোড করতে দেয়, উদাহরণস্বরূপ, wget ব্যবহার করে, এবং তারপরে একাধিক বিশ্লেষকের মাধ্যমে এটি চালান, যদি আমাদের একাধিক থাকে। দ্বিতীয়ত, এই স্ক্রিপ্টে একটি স্বাক্ষরের উপস্থিতি 100% ইঞ্জিনের একটি চিহ্ন। গতবার, একটি স্বাক্ষরের উপস্থিতি শুধুমাত্র সংশ্লিষ্ট ইঞ্জিনে ওজন যোগ করেছে এবং সবচেয়ে বেশি ওজনের ইঞ্জিন "জিতেছে"। আমি সিদ্ধান্ত নিয়েছি যে এই ক্ষেত্রে, এই জাতীয় পদ্ধতি শুধুমাত্র অপ্রয়োজনীয়ভাবে কোডটিকে জটিল করে তুলবে। স্ক্রিপ্ট পরীক্ষা করার জন্য, আমি কিছু গবেষণা করেছি। আমি কয়েক হাজার ফোরামের একটি তালিকা সংকলন করেছি এবং সেগুলির প্রতিটিকে আমার স্ক্রিপ্টের মাধ্যমে চালিয়েছি, যার ফলে প্রোগ্রাম প্রতিক্রিয়ার শতাংশ এবং বিভিন্ন ইঞ্জিনের জনপ্রিয়তা নির্ধারণ করা হয়েছে। ফোরামের তালিকা পেতে, আমি আমার Google পার্সার ব্যবহার করেছি। এই ধরনের প্রশ্ন সার্চ ইঞ্জিন পাঠানো হয়েছে সাইট: ফোরাম।*.ru এবং তাই আপনি ফাইলটিতে সম্পূর্ণ কোয়েরি জেনারেটর কোডটি পাবেন gen-forumsearch-urls.pl. Zone.ru ছাড়াও, .su .ua .kz এবং .by ব্যবহার করা হয়েছিল। গতবার, এই ধরনের একটি অধ্যয়ন পরিচালনা করা কঠিন ছিল, যেহেতু ওয়ার্ডপ্রেস এবং জুমলা সাইটের URL-এ এই ধরনের স্বাক্ষর নেই। cmsmagazine.ru/catalogue/ এর মতো ক্যাটালগগুলি পর্যাপ্ত নমুনার আকার প্রদান করে না। 600টি ড্রুপাল সাইট কি? আমাকে অবশ্যই স্বীকার করতে হবে, পরীক্ষার ফলাফল আমাকে হতাশ করেছে। অধ্যয়ন করা 12,590টি সাইটের মধ্যে, ইঞ্জিনটি সফলভাবে শুধুমাত্র 7,083টিতে সনাক্ত করা হয়েছিল, অর্থাৎ মাত্র 56% ক্ষেত্রে। হয়তো আমি কিছু ইঞ্জিন একাউন্টে নিতে না? এটা কি সত্যিই সত্য যে ফোরামের অর্ধেক বিট্রিক্স ইনস্টল করা ছিল? নাকি স্বাক্ষরের জন্য আমার আরও সময় ব্যয় করা উচিত ছিল? সাধারণভাবে, এখানে অতিরিক্ত গবেষণা প্রয়োজন। সফলভাবে চিহ্নিত 56% ইঞ্জিনগুলির মধ্যে, প্রত্যাশিত হিসাবে সর্বাধিক জনপ্রিয় ছিল, IPB (31%), phpBB (26.6%) এবং vBulletin (26.5%) তারা SMF (5.8%) এবং DLEForum (5.3%) দ্বারা একটি বড় ব্যবধানের সাথে অনুসরণ করে। আমার প্রিয় punBB শুধুমাত্র 6 তম স্থানে ছিল (1.64%)। আমি এই সংখ্যাগুলিতে খুব বেশি বিশ্বাস রাখার সুপারিশ করব না (তারা বলে যে রুনেটের প্রতিটি তৃতীয় ফোরাম আইপিবি-তে চলে), তবে অবশ্যই নির্দিষ্ট সিদ্ধান্তে আসা যেতে পারে। উদাহরণস্বরূপ, যদি আপনি একটি ফোরাম ইঞ্জিনে একটি সাইট তৈরি করতে চান এবং ফোরামটি সংশোধন করার পরিকল্পনা করেন, বলুন, সপ্তাহে একবার স্বয়ংক্রিয়ভাবে তহবিল উত্তোলনের সাথে প্রতিটি বার্তার জন্য ব্যবহারকারীদের $0.01 প্রদান করুন, তাহলে আপনার তিনটি জনপ্রিয় ইঞ্জিনের মধ্যে একটি বেছে নেওয়া উচিত৷ ফোরামটি যত বেশি জনপ্রিয়, এটিতে পারদর্শী একজন প্রোগ্রামার খুঁজে পাওয়ার সম্ভাবনা তত বেশি। যদি ইঞ্জিনে কোনো উল্লেখযোগ্য পরিবর্তন প্রত্যাশিত না হয়, তাহলে একটি কম জনপ্রিয় ইঞ্জিন বেছে নেওয়ার অর্থ হতে পারে, উদাহরণস্বরূপ SMF বা punBB৷ এটি আপনার ফোরামে হ্যাকার আক্রমণের সংখ্যা এবং এতে স্বয়ংক্রিয়ভাবে পাঠানো স্প্যামের পরিমাণ হ্রাস করবে। ফোরাম অনুসন্ধান/শনাক্ত করার জন্য স্ক্রিপ্টগুলিও অনেক ব্যবহারিক অ্যাপ্লিকেশন খুঁজে পেতে পারে। প্রথম যে জিনিসটি আমার মাথায় এসেছিল তা হল টিআইসি দ্বারা চিহ্নিত ফোরামগুলি সাজানো এবং আমার একটি সাইটের লিঙ্ক সহ প্রথম শতাধিক পোস্টে পোস্ট করা। যাইহোক, শত শত ফোরাম ডফলো লিঙ্কগুলি TCI-কে কোনভাবেই প্রভাবিত করেনি (2টি আপডেট পাস হয়েছে), তাই এখানে সময় নষ্ট না করাই ভালো, যদি না আপনি ট্রানজিশনে আগ্রহী না হন। এটা স্পষ্ট যে স্ক্রিপ্টগুলির উল্লেখিত ব্যবহার শুধুমাত্র একটি থেকে অনেক দূরে। আমি মনে করি আপনি সহজেই বুঝতে পারবেন কিভাবে আপনি তাদের ব্যবহার করতে পারেন। বটমাস্টার ল্যাব দ্বারা সংগঠিত, পরিকল্পিত নয়। আমার কাছে সময় নেই, ভিডিওটি একটি প্রতিযোগিতার জন্য প্রয়োজন, একটি নতুন প্রবণতা হিসাবে, যদিও সবকিছু ভাল স্ক্রিনশট (আমার IMHO) দিয়ে আরও সহজে ব্যাখ্যা করা যেতে পারে এবং আমি সত্যিই কিছু শুট করতে চাই না। খুব কম লাভজনক বিষয় বাকি আছে, স্টুপিড স্প্যাম আর শাসন করে না, আপনাকে এখানে ভাবতে হবে এবং কেউ টপিক শুট করবে না, যদি না আপনি পুরানো বিষয়গুলিকে একটি সুন্দর মোড়কে রাখার চেষ্টা করেন এবং সেগুলিকে একটু গুঁড়ো করার চেষ্টা করেন। :) কিন্তু এটা আমাদের সম্পর্কে নয়। সাধারণভাবে, এই 3টি "করবে না", আমি মনে করি, বেশিরভাগ সম্ভাব্য অংশগ্রহণকারীদের প্রতিযোগিতায় অংশগ্রহণের ক্ষেত্রে মূলত বাধা হয়ে দাঁড়িয়েছে। এটি তিনটির মধ্যে একটি গাড়ি মেরামত করার মতো: সস্তা, উচ্চ মানের, দ্রুত - পরিষেবাটি একই সময়ে শুধুমাত্র 2টি শর্ত পূরণ করতে পারে। বসুন এবং আপনার কাছাকাছি যা চয়ন করুন. :) এটি একটি প্রতিযোগিতার সাথে একই: আমার কাছে সময় আছে, আমি জানি কিভাবে একটি ভিডিও বানাতে হয়, কিন্তু কোন বিষয় নেই, বা আমি জানি কিভাবে একটি ভিডিও তৈরি করতে হয়, একটি বিষয় আছে, কিন্তু আমার কাছে সময় নেই সব, অথবা আমার অবসর সময় আছে এবং একটি ছোট বিষয় আছে, কিন্তু ভিডিওটি ভীতিকর। তবে এটি ভাল যদি একই সময়ে 2টি শর্ত পূরণ করা হয়। আচ্ছা, ঠিক আছে, গানের কথা বাদ দেওয়া যাক। আমি নিজেকে চালিয়ে যাব। আমি পরিকল্পনা করিনি, যার মানে আমি প্রতিযোগিতায় অংশ নিয়েছি, এমনকি আমি কোন নিবন্ধটিকে ভোট দেব তা বেছে নিয়েছি। আপনি যাই বলুন না কেন, ডজ সফ্টওয়্যারটি খুব ভালভাবে জানে এবং খুব বুদ্ধিমানের সাথে কীভাবে এটি ব্যবহার করতে হয় তা জানে। কিন্তু আজ জানলাম প্রতিযোগিতায় ষড়যন্ত্র হাজির হয়েছে। দেখা যাচ্ছে যে আমি ভোট দিতে পারব না, এবং শুধুমাত্র নতুন যারা 2011 সালে সফ্টওয়্যারটি কিনেছিল তারা এটি করতে সক্ষম হবে এবং প্রতিযোগিতাটি তাদের জন্য ডিজাইন করা হয়েছে। আমি একটু অবাক হলাম, কিন্তু মালিক একজন ভদ্রলোক। প্রতিযোগিতাটি একটি বিজ্ঞাপন প্রচারাভিযান এবং আলেকজান্ডার ভাল জানেন কিভাবে এটি চালাতে হয়। সাধারণভাবে, আমি তখন একটি নিবন্ধ পোস্ট করার সিদ্ধান্ত নিয়েছি; এটি লেখা কিছুটা সহজ যখন এটি কার জন্য, সমগ্র যৌথ খামারের জন্য, আসলে এটি করা অসম্ভব। পিএইচপি-ফিউশন দ্বারা চালিত Khroomer 7.07 সংস্করণে, প্রোগ্রামটি বেশ কয়েকটি নতুন ইঞ্জিনে প্রশিক্ষিত হয়: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz, ইত্যাদি phpBB-fr.com, সোলারিস phpBB থিম এবং নতুন জিনিস শেখার প্রক্রিয়া অবিরত। "SMF 1.1.2 দ্বারা চালিত" "SMF 1.1.3 দ্বারা চালিত" "SMF 1.1 RC2 দ্বারা চালিত" "SMF 1.1.4 দ্বারা চালিত" "SMF 1.1.8 দ্বারা চালিত" "SMF 1.1.7 দ্বারা চালিত" "2006-2008, সিম্পল মেশিন এলএলসি" এবং যে সব না. ইঞ্জিন সংস্করণ সংগ্রহ করার সময়, কিছু SMF ফোরামে আমরা ফুটারে "2001-2006, লুইস মিডিয়া" ক্যাপশনটি খুঁজে পাই। আমরা এই অনুরোধটি পরীক্ষা করছি, এটি আমাদের সম্পূর্ণরূপে সন্তুষ্ট করে। আমরা একটি অনুরূপ অনুরোধ খুঁজে পাই: "2001-2005, লুইস মিডিয়া"। পাদচরণগুলি আরও খুঁজলে আমরা নিম্নলিখিত অনুরোধটি পাই: "SMFone ডিজাইন A.M.A দ্বারা, SMF 1.1 এ পোর্ট করা হয়েছে"। আমরা চেক - মহান. ইত্যাদি। অর্ধ ঘন্টার কাজ এবং আপনার কাছে ইঞ্জিনের জন্য প্রশ্নের একটি চমৎকার ডাটাবেস রয়েছে, এবং আপনি যদি সেগুলিতে অপারেটর ব্যবহার করেন তার চেয়ে Google আপনাকে এই প্রশ্নগুলির জন্য অনেক কম নিষিদ্ধ করবে৷ এবং একই সময়ে, আপনি যদি “index.php?topic=" এর মতো প্রশ্নগুলি ব্যবহার করেন তার চেয়ে আপনার ডেটাবেস অনেক বেশি পরিষ্কার হবে, কারণ এখানে Google শুধুমাত্র আমাদের প্রয়োজনীয় ফোরামগুলিই নয়, অনেক বামপন্থী সংস্থানও দেবে যেখানে এটি সম্ভব ছিল। ফোরাম বিষয় একটি লিঙ্ক ছেড়ে. আপনার আপত্তি থাকতে পারে, এতে দোষ কি? অন্যরা একটি লিঙ্ক রেখে গেছে, তাই আমরাও করতে পারি। কিন্তু! লিঙ্কগুলি শুধুমাত্র খ্রুমার দ্বারা নয়, অন্যান্য প্রোগ্রাম দ্বারাও ছেড়ে দেওয়া যেতে পারে। তদুপরি, একটি নির্দিষ্ট সংস্থান, তথাকথিত অত্যন্ত বিশেষায়িত সফ্টওয়্যার, এবং এই জাতীয় লিঙ্কগুলি হাতে রেখে মন্তব্য করার জন্য এগুলি বিশেষভাবে তৈরি করা যেতে পারে। আবার, আমি আবার বলছি, আবর্জনার পরিমাণ আমাদের কাছে গুরুত্বপূর্ণ নয়, গুণগত মান; আমরা সঠিক অনুরোধের সাথে ডাটাবেস সংগ্রহ করব। এই পদ্ধতির সুবিধা হল যে আপনাকে কার্যত কনফিগার করার প্রয়োজন হবে না চালনী - ফিল্টার
伟哥 - ভায়াগ্রা 吉他 - গিটার 其他 - বিশ্রাম 保险公司 - বীমা শব্দ ফাইলে এই প্রতিস্থাপন কোড রাখুন: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 আপনি যদি একটি বীমা ওয়েবসাইট প্রচার করছেন, তাহলে আপনার প্রোফাইলে একটি থিম্যাটিক (!) এমনকি চাইনিজ ফোরামে একটি লিঙ্ক স্থাপন করে অনুরোধের মাধ্যমে " SMF ফোরাম" 保险公司এটা খুব ভাল হবে.
প্রিন্ট "phpbb \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/iবা
# $data =~ /viewforum\.php\?[^""]*f=\d+/i বা
$ডেটা =~ /phpBB\-SEO/i বা
$ডেটা =~ /)
;
প্রিন্ট "আইপিবি \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
বা
$ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>ইনভিশন পাওয়ার বোর্ড/iবা
$ডেটা =~ /
$ডেটা =~ /index\.php\?[^""]*showforum=\d+/i)
;
প্রিন্ট "vbulletin \n"
যদি ($ডেটা =~ / দ্বারা চালিত:?[^<]+vBulletin[^<]+(?:Version)?/i
বা
$ডেটা =~ /)
;
প্রিন্ট "smf \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>SMF/i দ্বারা চালিতবা
$ডেটা =~ /index\.php\?[^""]*বোর্ড=\d+\.0/i)
;
প্রিন্ট "punbb \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i); #বা
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
প্রিন্ট "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i বা
যদি ( $ডেটা =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
প্রিন্ট "exbb \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i); # বা
# $data =~ /forums\.php\?[^""]*forum=\d+/i);
প্রিন্ট "yabb \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/iবা
$data =~ /YaBB\.pl\?[^""]*num=\d+/i );
প্রিন্ট "dleforum \n"
যদি ($ডেটা =~ /\(DLE ফোরাম দ্বারা চালিত\)<\/title>/iবা
$ডেটা =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">DLE ফোরাম<\/a>/i)
;
প্রিন্ট "আইকনবোর্ড \n"
যদি ($ডেটা =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/iবা
$ডেটা =~ /\n"
যদি ($ডেটা =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i বা
# $ডেটা =~ /topic\.php\?fid=\d+/i বা
যদি ($ডেটা =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
প্রিন্ট "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i বা
যদি ($ডেটা =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*স্টোকস আইটি/আই)
;
প্রিন্ট "পডিয়াম \n"
# if($data =~ /topic\.php\?t=\d+/i বা
যদি ($ডেটা =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>পডিয়াম/i)
;
প্রিন্ট "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i বা
যদি ($ডেটা =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
প্রিন্ট "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i বা
যদি ($ডেটা =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-ফোরাম/i)
;
প্রিন্ট করুন "যথেষ্ট অন্য ফোরামনেট \n"
যদি ($ডেটা =~ /এখনও অন্য ফোরাম\.net/i বা
$ডেটা =~ /default\.aspx\?g=posts&t=\d+/i)
;
সাইট: talk.*.ru
সাইট:বোর্ড.*.ru
সাইট:smf.*.ru
সাইট: phpbb.*.ru
....
দীর্ঘ ভূমিকা শেষ, এখন বিন্দুতে.
একজন শিক্ষানবিস যখন এমন একটি সুপার-কম্বাইন কিনেছেন, যেটি Xrumer + Hrefer কমপ্লেক্স কিনবে তার কী দরকার? এটা ঠিক, এটিতে কীভাবে কাজ করতে হয় তা শিখুন এবং স্প্যাম শীট শুরু করে আপনি অর্থ উপার্জন করতে পারেন এমন বিভ্রম ত্যাগ করুন। আপনি যদি তা মনে করেন, তাহলে এখনই দাতব্য প্রতিষ্ঠানে আপনার অর্থ দান করুন। আপনাকে শিখতে হবে কিভাবে কমপ্লেক্সের সরঞ্জামগুলি ব্যবহার করতে হয়, পছন্দ করে নিজের জন্য এটি তীক্ষ্ণ করা। "আরো নিন - আরও নিক্ষেপ করুন" এর সময় চলে গেছে। পরিমাণ গুণমানের পথ দেয়। এর মানে আমরা নিজেদের জন্য একটি বেস একত্র করব; আপনি যদি এটি কীভাবে করবেন তা না শিখেন, আপনি ট্রেনের পিছনে পড়বেন। স্বাভাবিকভাবেই, খ্রেফার আমাদের এতে সাহায্য করবে। আপনি যদি Google-এ আপনার সম্পদের প্রচার করার পরিকল্পনা করেন, তাহলে আমাদের Google-এর মাধ্যমে দাতাদের সাইটগুলি অনুসন্ধান করতে হবে। আমি মনে করি এটি বোধগম্য এবং যৌক্তিক। কিন্তু গুগল, তামার পাহাড়ের উপপত্নীর মতো, তার সম্পদ সবাইকে দেয় না। আপনি এটি একটি পদ্ধতির প্রয়োজন. আমি এখনই বলতে চাই যে আশা করবেন না যে আপনি জনসাধারণের মধ্যে যে লক্ষণগুলি পাবেন তার ভিত্তিতে আপনি কিছু সংগ্রহ করতে সক্ষম হবেন। তারা জনসমক্ষে উপলব্ধ কারণ তারা মূল্যহীন হয়. আমি আরও টপিক বিকাশ করব না। এটি কীভাবে সঠিকভাবে একত্রিত করা যায় তা আপনাকে বলা ভাল যাতে আপনি ফলাফলটি দেখতে পারেন, আপনি বাকীটি নিজেই কাজ করতে পারেন, মূল জিনিসটি নীতিটি বোঝা। আমাদের প্রয়োজনীয় নির্দিষ্ট ইঞ্জিনগুলির বৈশিষ্ট্যগুলির উপর ভিত্তি করে সঠিকগুলি সংগ্রহ করতে হবে, সাধারণভাবে ফোরামের বৈশিষ্ট্যগুলির উপর নয়। এটি নতুনদের প্রধান ভুল - একটি নির্দিষ্ট জিনিসে মনোনিবেশ না করা, তবে সবকিছুকে সম্পূর্ণরূপে আবৃত করার চেষ্টা করা। এবং এছাড়াও, যদি আপনি একটি কম বা কম সাধারণ ডাটাবেস পার্স করতে চান, প্রশ্নে অপারেটর ব্যবহার করা বন্ধ করুন। কোন "inurl:", "site:", "title", etc. Google আপনার মত অনুসন্ধানকারীদের সাথে সাথে নিষিদ্ধ করবে। অতএব, খ্রুমার বর্তমানে যে ইঞ্জিনগুলির সাথে কাজ করছে সেগুলি আমরা সাবধানে অধ্যয়ন করি:
সাধারণভাবে, Hrefer দ্বারা পার্স করার জন্য আমাদের সঠিক প্রশ্ন প্রস্তুত করতে হবে। ফোরাম ডিজককে উদাহরণ হিসেবে নেওয়া যাক। SMF ফোরাম. এবং এর পার্সিং জন্য খুচরা যন্ত্রাংশ মধ্যে এটি disassembling শুরু করা যাক. আমাদের প্রিয় Google এই বিষয়ে আমাদের সাহায্য করবে। Google এ একটি প্রশ্ন লিখুন SMF ফোরাম- অনুসন্ধানের ফলাফলে প্রচুর আবর্জনা রয়েছে, আমরা 13 তম পৃষ্ঠায় রিওয়াইন্ড করি এবং যেকোনো লিঙ্ক নির্বাচন করি। আমি এটি জুড়ে এসেছি: http://www.volcanohost.com/forum/index.php?topic=11.0। এর এটি খুলুন এবং এটি অধ্যয়ন করা যাক। এই ইঞ্জিনের অন্যান্য পৃষ্ঠাগুলির অনুসন্ধানে প্রয়োগ করা যেতে পারে এমন পৃষ্ঠায় আমাদের এমন কিছু বৈশিষ্ট্য খুঁজে বের করতে হবে। ফুটারে আমরা নিম্নলিখিত শিলালিপি লক্ষ্য করি SMF 1.1.14 দ্বারা চালিত, এটি উদ্ধৃত করুন এবং Google এ প্রবেশ করুন, এটি আমাদের দেখায় যে এই প্রশ্নের জন্য এটি প্রায় 59 মিলিয়ন বিকল্প জানে৷ আমরা দ্রুত লিঙ্কগুলি দেখি, এই কীওয়ার্ডটিতে আরও কয়েকটি বিকল্প যোগ করি, উদাহরণস্বরূপ, "এসএমএফ 1.1.14 দ্বারা চালিত" পপলারবা "এসএমএফ 1.1.14 দ্বারা চালিত" ভায়াগ্রা. আমরা নিশ্চিত করি যে অনুরোধটি দুর্দান্ত, ফলাফলগুলি কেবল ফোরাম এবং প্রায় কোনও আবর্জনা নেই৷
উপরন্তু, আমরা পরিমাণে আগ্রহী নই, কিন্তু মানের দিকে, যেমনটি আমি উপরে বলেছি। এগিয়ে যান. একই ফোরাম থেকে আমরা ফুটার থেকে আরেকটি বাক্যাংশ গ্রহণ করি: , আমরা এটিকে উদ্ধৃত করি এবং এটি Google-এ ফিড করি৷ জবাবে, তিনি প্রকাশ করেন যে তিনি 13 মিলিয়নেরও বেশি ফলাফল জানেন। আবার, আমরা দ্রুত ফলাফলগুলি দেখি, অতিরিক্ত শব্দ যোগ করি এবং তাদের সাথে ফলাফলগুলি পরীক্ষা করি। আমরা নিশ্চিত করি যে অনুরোধটি দুর্দান্ত এবং প্রায় কোনও আবর্জনা নেই। সাধারণভাবে, ইতিমধ্যে 2টি আয়রন অনুরোধ রয়েছে। আমি আপাতত প্রথম ফোরামটি একা ছেড়ে অন্য ফোরাম থেকে অনুরোধ সংগ্রহ করা চালিয়ে যাওয়ার পরামর্শ দিচ্ছি। সৌভাগ্যবশত, আমাদের অনুরোধের ভিত্তিতে গুগল খোলা আছে। 2006-2008, সিম্পল মেশিন এলএলসি. আমরা অনুসন্ধানের ফলাফলগুলি থেকে নিই, উদাহরণস্বরূপ, এই ফোরামগুলি: http://www.snowlinks.ru/forum/index.php?topic=1062.0 এবং http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 ফুটারগুলিতে আমরা তাদের কাছ থেকে নিম্নলিখিত প্রশ্নগুলি গ্রহণ করি: "এসএমএফ 1.1.7 দ্বারা চালিত" এবং "এসএমএফ 1.1.10 দ্বারা চালিত" (আমি সর্বদা উদ্ধৃতি চিহ্নগুলিতে Hrefer-এর জন্য প্রশ্নগুলি প্রবেশ করার পরামর্শ দিই, কারণ আমাদের প্রথমে গুণমানের প্রয়োজন সব)। আমি মনে করি আমরা কী করছি তা পরিষ্কার, শেষ পর্যন্ত আমাদের কাছে এসএমএফ ইঞ্জিনে ফোরাম অনুসন্ধানের জন্য প্রশ্নের একটি নির্দিষ্ট ডাটাবেস থাকবে (এটি উদাহরণ হিসাবে বেছে নেওয়া হয়েছিল, অন্যান্য ইঞ্জিনগুলির সাথে একই)।
এটি এই মত কিছু দেখাবে:
আমি মনে করি যে প্রাথমিক পর্যায়ে Hrumer কিভাবে সঠিকভাবে ব্যবহার করতে হয় তা শেখা খুবই গুরুত্বপূর্ণ, কারণ আপনি একবার এটি শিখলে, পরিস্থিতি যেভাবেই পরিবর্তিত হোক না কেন আপনি সর্বদা Hrumer-এর জন্য একটি ব্যবহার খুঁজে পেতে পারেন। সুরক্ষাগুলি আরও জটিল হয়ে উঠছে, এবং যদি কিছু ধরণের ইঞ্জিনে সুরক্ষা শক্তিশালী করা হয় এবং খ্রুমার এই মুহুর্তে এটি মোকাবেলা করতে না পারে, তবে এই লিঙ্কগুলি সংগ্রহ করার জন্য সংস্থান ব্যয় করার এবং তারপরে খোমারের সাথে কাজ করার কোনও অর্থ নেই। কি ফলাফল দেয় তার উপর শক্তি মনোনিবেশ করা ভাল। এবং একই সময়ে, যদি বটমাস্টার ল্যাবস টিম খোমারকে নতুন কিছু শেখায়, তাহলে আপনি দ্রুত একজন নতুন রোগীকে ব্যবচ্ছেদ করতে পারেন এবং রোগী এখনও উষ্ণ থাকা অবস্থায় খরুমারের জন্য বেস প্রস্তুত করতে পারেন। সময় হল অর্থ; আপনি বেস কেনার সময় সম্পদ আর প্রাসঙ্গিক নাও হতে পারে। কারো দ্বারা সংগৃহীত। উপরন্তু, নিজের জন্য ঘাঁটিগুলির সঠিক সংগ্রহ উল্লেখযোগ্যভাবে খ্রুমারের "সাদা" ব্যবহারকে প্রসারিত করে। এবং এটি ঠিক যেখানে সবকিছু চলছে, আমাদের পছন্দ হোক বা না হোক, এবং সাদা বা ধূসর হওয়ার প্রক্রিয়া চলছে। প্রতিটি সম্ভাব্য উপায়ে কালো চাদর অতীতের জিনিস হয়ে উঠছে।
Hrefer এর সাথে কাজ করার অন্যান্য সমস্ত প্রযুক্তিগত দিকগুলি সাহায্যে দেখা যেতে পারে এবং সেগুলির উপর চিন্তা করার কোন মানে নেই; সমস্ত লক্ষ্য, পয়েন্ট, সেকেন্ড প্রতিটি গাড়ির জন্য পৃথকভাবে পরীক্ষামূলকভাবে সেট করা হয়।
একটি বোনাস হিসাবে, আমি এখানে চাইনিজ সার্চ ইঞ্জিন Baidu পার্স করার জন্য একটি টেমপ্লেট পোস্ট করব, অন্য দিন তারা আমাকে এটি সম্পর্কে জিজ্ঞাসা করেছিল, তাই আমি শ্লেষটি ক্ষমা করে দিয়েছিলাম। :)
হোস্টনাম=http://www.baidu.com
প্রশ্ন=s?wd=
LinksMask=
মোট পৃষ্ঠা=100
পরবর্তী পৃষ্ঠা=
পরবর্তী পৃষ্ঠা2=
ক্যাপচাURL=
ক্যাপচাইমেজ=
ক্যাপচাফিল্ড=
আমি তাদের পার্স পরীক্ষা করার চেষ্টা করেছি, সেখানে কোন নিষেধাজ্ঞা ছিল না, খ্রেফার দ্রুত সম্পদ সংগ্রহ করেছেন, পার্সিংয়ের জন্য সমস্ত প্রশ্নগুলি গুগলের মতোই ছিল, তবে প্রচুর চীনা সংস্থান ছিল, একটি উচ্চ পিআর সহ, এবং এছাড়াও, এমন অনেক জায়গা ছিল যেখানে নেই ইউরোপীয়রা কখনও পা রেখেছিল। চীনা প্রশ্ন পার্স করা ভাল। গুগল অনুবাদ এটিতে সহায়তা করবে, রাশিয়ান ভাষায় কীওয়ার্ডের একটি তালিকা টাইপ করুন এবং এটি চীনা ভাষায় অনুবাদ করুন। সত্য " শব্দ"চীনা ভাষায় Hrefer শব্দ যোগ করা যাবে না, তাদের পুনরায় কোড করা দরকার।
চীনা পরিবর্তে:
উপসংহারে, আমি বলতে চাই যে আমি কখনই এমন লোকদের বুঝতে পারিনি যারা অভিযোগ করেছেন যে খ্রেফারগুলি খারাপ বা খারাপভাবে রান্না করা হয়েছে; এর প্রতিক্রিয়ায়, আমি সর্বদা বলতে চাই, আপনি কীভাবে তাদের রান্না করতে জানেন না। কোন পার্সার রেফারের চেয়ে ভাল ফলাফল সংগ্রহ করতে পারে না; অনুরোধগুলি সঠিক হতে হবে। Hrefer হল একটি গাড়ি: ভাল, কঠিন, জার্মান ভাষায় তৈরি, কিন্তু এটি একজন ব্যক্তি দ্বারা চালিত হয় এবং এটি কতটা ভালভাবে চালিত হয় তার উপর নির্ভর করে; আপনি গাড়িটিকে একই সময়ে ডান এবং বামে উভয়ই চালাতে বাধ্য করতে পারবেন না।
একটি পৃথক বিষয় হল ডাটাবেস পরিষ্কার করা, আমি একবার পূর্ববর্তী প্রতিযোগিতার জন্য 3 বছর আগে এটি করেছিলাম। বেশিরভাগ অংশের জন্য, সবকিছু এখনও সেখানে প্রাসঙ্গিক, কিন্তু এখন আপনি 200 ওকে চেক করতে অস্বীকার করতে পারেন, আমি সত্যিই এই প্রক্রিয়াটি পছন্দ করিনি, খুব বড় ত্রুটি ছিল, প্রচুর অপ্রয়োজনীয় জিনিস ফিল্টার করা হয়েছিল। এখন এটি খ্রুমারের অপারেশন চলাকালীন প্রায় স্বয়ংক্রিয়ভাবে করা যেতে পারে, যদিও এই প্রক্রিয়াটি "200 ঠিক আছে" চেক করার সম্পূর্ণ অ্যানালগ নয়। যাইহোক, বিন্দুতে: খুব বেশি দিন আগে খ্রুমারে একটি দুর্দান্ত সুযোগ উপস্থিত হয়েছিল - একটি প্রকল্প চালানোর সময় সংস্থানগুলি থেকে তথ্য লুট করার। এটা এই মত দেখায়. আপনি একটি টেমপ্লেট লিখুন যা অপারেশন চলাকালীন প্রক্রিয়া করা হবে, এবং টেমপ্লেট থেকে সংগৃহীত তথ্য লগ ফোল্ডারের xgrabbed.txt ফাইলে প্রবেশ করা হবে। আপনি যে কোনও কিছুর জন্য এই ফাংশনটি ব্যবহার করতে পারেন, কল্পনার ফ্লাইট বিশাল। আমি আমার কর্মরত "মেয়াদ শেষ" ডাটাবেস থেকে লিঙ্কগুলি সরাতে সপ্তাহে একবার এই ফাংশনটি ব্যবহার করি। এটি কোনও গোপন বিষয় নয় যে এই জাতীয় সংস্থানগুলির আমাদের ডাটাবেস সাফ করার জন্য ফোরামগুলি প্রতিদিনই শেষ হয়ে যাচ্ছে এবং "অটোগ্রাবিং" টুল এই ক্ষেত্রে আমাদের সাহায্য করবে৷
সর্বোপরি, আপনাকে অবশ্যই স্বীকার করতে হবে যে যখন আমরা প্রায়শই টাইপ করি, উদাহরণস্বরূপ, http://www.laptopace.com/index.php, আমরা দেখতে পাই যে এই ডোমেনটি ইতিমধ্যেই, উদাহরণস্বরূপ, একটি ভাল লোক টাকা বিক্রি করছে, কিন্তু সেখানে নেই সেখানে ফোরাম। সুতরাং, এই স্ল্যাগকে বেস থেকে বের করে দেওয়ার জন্য, আমরা ডাকাতি করব। :) পৃষ্ঠার সোর্স কোড খুলুন এবং সেখানে এই এন্ট্রি দেখুন:
এখন গৌদাদ্দির সমস্ত "মৃত পুরুষ" আমাদের নামে পরিচিত হবে।
এখানে অটোগ্রাবিং টুলের জন্য একটি ছোট নির্বাচন দেওয়া হল, যদি আপনি বিভিন্ন "মেয়াদ শেষ" ডোমেনের ডাটাবেস সাফ করতে চান: