主頁 > 知識庫 > Tsys OkHtm.com修改版數(shù)據(jù)采集方法

Tsys OkHtm.com修改版數(shù)據(jù)采集方法

熱門標簽:鄭州智能外呼電銷機器人廠家 沈陽三五防封電銷卡 成都ai外呼系統(tǒng)線路 廣東語音外呼系統(tǒng)公司 長春公司外呼系統(tǒng)中心 云南便宜外呼系統(tǒng)平臺 沈陽電話機器人公司 鄢陵學校如何做地圖標注 虛擬電話外呼系統(tǒng)
采集功能

[1]分類管理

a 添加一個頻道

upload/200511/14_201951_1.jpg


b 頻道(點擊進入欄目管理)

upload/200511/14_202156_2.jpg


c 添加新欄目

upload/200511/14_202258_3.jpg



[2] 項目管理

a 添加新項目

upload/200511/14_202519_4.jpg


項目名稱: 填寫采集的項目名稱,便于自己以后管理
所屬頻道: 請選擇采集的頻道
所屬欄目: 請選擇所屬于的欄目
所屬專題: 不屬于任何專題
網(wǎng)站名稱: 自己用來采集的對象網(wǎng)站名稱
網(wǎng)站網(wǎng)址: 自己用來采集的對象的地址
網(wǎng)站登錄: 不需要登錄 設置參數(shù)
登錄參數(shù): 需要登錄才能訪問的請設置登錄參數(shù)(不支持驗證碼登錄)
提交地址:點擊 登錄 按鈕后用來驗證用戶名、密碼的文件網(wǎng)址,如動力3.62的
是 http://www.****.com/Admin_ChkLogin.asp。
用戶(密碼)參數(shù):查看登錄表單源碼,找到形如下面之類的代碼
用戶名:input type="text" name="UserName" value="">
密碼:input type="password" name="Password" value="">
用戶參數(shù)就是--第一行的name=后面的UserName
密碼參數(shù)就是--第二行的name=后面的Password
失敗信息: 用戶名或者密碼不正確時,登錄后的失敗提示信息,用于判斷登錄是否成功的一個標志,請一定要填寫,否則不能采集,比如:您輸入的用戶名或密碼不正確,請重新輸入!
項目備注:該項目的其它要記錄的信息,以后每天都要采集

b 列 表 設 置

upload/200511/14_203032_4.jpg


Quote
列表就像一本書的目錄,目錄可以有一頁,也可以有很多頁,列表也一樣。

列表索引頁面:

你要開始采集的列表頁。

列表開始/結束標記:

平面上的兩點確定一條直線,學過幾何吧?用在這里是一樣的道理,開始/結束標記可以確定你要采集的新聞,有的這里沒有設置好結果采集到其它新聞去了。
比如這是某一列表頁面的主要部分代碼:
table width="98%" border="0" cellspacing="0" cellpadding="3">
tr>
td align="left" valign="top">br>
a href="News.asp?id=1" target=_blank>新聞標題/a>br>
a href="News.asp?id=2" target=_blank>新聞標題/a>br>
....省略
a href="News.asp?id=50" target=_blank>新聞標題/a>
/td>
/tr>
/table>
    紅色部分就是我們要的列表開始標記和結束標記,是不是把你想要的新聞夾在中間了?按照這樣的取法可以選擇好多對開始標記和結束標記,也就是說它們并不是唯一的。但是它們又是相對唯一的,這里的唯一是指,開始標記在第一條新聞以上的代碼中唯一,結束標記在開始標記到結束標記之間的是唯一的。

列表索引分頁:

   (1)設置標簽
列表索引頁的部分代碼如下:
td height="24" align="center" bgcolor="#F6f7f8"> 1 A HREF="index_2.html">2/A> A HREF="index_3.html">3/A> A HREF="index_4.html">3/A>a href="index_2.html">下一頁/a>
a href="index_4.html">尾頁/a> /td>
紅色部分為分頁開始/結束標記,只要這兩個代碼確定,不是不就可以確定“下一頁”了?,剩下的交給程序來處理,有的填寫:A HREF="和">2/A>,這就錯了,怎么錯了自己想想。

   索引分頁重定向:參考鏈接設置

(2)批量生成
   如有些列表是這種形式:
   第一頁http://www.it.com.cn/news/cyxw/yejie/index_1.html
   第二頁http://www.it.com.cn/news/cyxw/yejie/index_2.html
   第三頁http://www.it.com.cn/news/cyxw/yejie/index_3.html

   那么可以這設置:{$ID}是必須的

   原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html

   生成范圍:1--3

   結果程序會生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html

   http://www.it.com.cn/news/cyxw/yejie/index_2.html

   http://www.it.com.cn/news/cyxw/yejie/index_3.html

   這樣的幾個列表頁面

   (3)手動添加

   輸入一頁網(wǎng)址后按回車再輸入另一頁,如此反復可以輸入多個網(wǎng)址。

(3)鏈接設置

   鏈接開始/結束標記:

   這里沒設置好采集過程中可能會路途停止

   部分代碼

table width="98%" border="0" cellspacing="0" cellpadding="3">
tr>
td align="left" valign="top">br>
a href="List.asp?type=IT新聞">[IT新聞]/a>a href="New.asp?id=1" target=_blank>新聞標題/a>
a href="List.asp?type=Pc新聞">[Pc新聞]/a>a href="New.asp?id=2" target=_blank>新聞標題/a>
....省略
a href="List.asp?type=IT新聞">[IT新聞]/a>a href="New.asp?id=50" target=_blank>新聞標題/a>
/td>
/tr>
/table>
   紅色部分為鏈接開始/結束標記,注意:如果新聞標題的前面有欄目鏈接(包括其它的鏈接,就像上面這個有IT新聞、Pc新聞一樣)的,開始標記必須往前延伸,我以前做的3.62版的錄像中開始標記是href=,這個只能用于新聞標題前面沒有欄目鏈接的情況。

   鏈接的重新定位:

   如果新聞的鏈接特殊,可使用本功能對新聞網(wǎng)址重新定位,比如有些代碼可能是這樣:

a href="Javascript:window.open('1')" target=_blank>新聞標題/a>br>
a href="Javascript:window.open('5')" target=_blank>新聞標題/a>br>
....省略
a href="Javascript:window.open('50')" target=_blank>新聞標題/a>

   把開始/結束標記設置為紅色部分,點擊一條新聞看它的真實網(wǎng)頁地址,比如第一條新聞的地址是這樣,http://www.scuta.net/news.asp?id=1,那么絕對鏈接就設置為http://www.scuta.net/news.asp?id={$ID}就成了。
c 列 表 截 取 測 試

upload/200511/14_203230_4.jpg


upload/200511/14_203338_4.jpg


d 列 表 新 聞 鏈 接 測 試

upload/200511/14_203430_4.jpg


e 正 文 設 置

upload/200511/14_203509_4.jpg


f 采 樣 測 試

upload/200511/14_203605_4.jpg


g 屬 性 設 置

upload/200511/14_203651_4.jpg


設置一些采集的選項,注意

采集選項: 立即發(fā)布 保存圖片 倒序采集 外部鏈接 中 保存圖片不要勾選.

h 點"完成".采集設置完畢

[3] 數(shù)據(jù)采集

在這里可以看到自己剛設置好的項目,
采集模式:快速模式 穩(wěn)定模式 篩選模式 采集測試 正文預覽
這幾種自己琢磨了,不多描述 .結果都差不多.

然后開始漫長的采集過程.服務器速度和網(wǎng)速有關系.

[4] 數(shù)據(jù)審核

數(shù)據(jù)審核中,有"全選" "部分選擇" "全部" 這幾種模式,點標題可以查看采集的文章(帶圖片) .也可以刪除數(shù)據(jù)

[5] 數(shù)據(jù)導出

是把數(shù)據(jù)從采集庫中導入到cms數(shù)據(jù)表中,默認的是審核完的文章才可以導出,如果導出過的話會顯示"已導出"反之亦然.

數(shù)據(jù)導出時有幾個選項需要注意:

upload/200511/14_204400_4.jpg


有三種導出模式: 部分選擇,全部選擇,整個欄目導出.但是不管那種模式都要選擇 ·請輸出的[資源類別]方向 或者[資源特性],這些是與系統(tǒng)中你建立的資源分類相掛勾的,選擇導出到哪個分類.

導出完畢.

資源管理-->常規(guī)資源 中可以看到你剛才采集到的文章,默認為已經(jīng)審核過.

然后可以選擇生成或者編輯.

標簽:馬鞍山 四平 湖北 遼陽 防城港 平頂山 朝陽 孝感

巨人網(wǎng)絡通訊聲明:本文標題《Tsys OkHtm.com修改版數(shù)據(jù)采集方法》,本文關鍵詞  Tsys,OkHtm.com,修,改版,數(shù)據(jù)采集,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Tsys OkHtm.com修改版數(shù)據(jù)采集方法》相關的同類信息!
  • 本頁收集關于Tsys OkHtm.com修改版數(shù)據(jù)采集方法的相關信息資訊供網(wǎng)民參考!
  • 推薦文章