雅虎宣布開源了自家的網頁爬蟲工具 —— Anthelion。Anthelion 是雅虎用來爬取 HTML 中的語法結構數據的網絡爬蟲。然而對于雅虎來說,網絡爬蟲其實一直是處于非常核心的位置。其地位甚至高于雅虎的許多其他的核心應用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫無疑問,Anthelion 的開源對雅虎在 web 搜索領域的競爭力提升意義重大。
去年在上海的一次會議中,雅虎就公布了 Anthelion 的很多細節,會議中提到,Anthelion最初致力于爬取嵌入HTML網頁中的語義數據。例如:microdata 、microformats 和 RDFa 等。在這次會議上同時還提到了很多關于 Anthelion 爬蟲實現的技術。
暫無信息
地址:廣東省惠州市惠城區東平半島惠州大道20號賽格大廈1608號
電話:0752-2072178 傳真:0752-2072168-0 郵箱:gdoudi@ouditech.com廣東歐迪科技有限公司 版權所有
Copyright ©2020 Guangdong Oudi Technology Corporation All Rights Reserved.
粵ICP備16018732號-1