前几天写了一个《Java抽取HTML内容》的文章,路径是
http://javapub.iteye.com/blog/719658。在此基础上做了一个Baidu的关键词抽取工具。可以抽取和查询百度的风云榜。这里也是在尝试着去开发一个Java的搜索引擎(大家见笑了),首先从关键词排名入手吧。界面如图:
原理也不难,
1.从网络定位输入流,并读取这个输入流。
URL url = new URL(urlPath);
// 以特定格式读取文件流。
InputStreamReader isr = new InputStreamReader(url.openStream(),
"gb2312");
BufferedReader br = new BufferedReader(isr);
这里我们读取的是baidu的输入流,自然用bgb2312格式,以后可以做的更加智能一些,自动判断流的格式。
2.定位内容
这里我们是定位baidu风云榜的内容,所以比较准确,以后更加复杂的搜索引擎定位算法,那是以后考虑的事情了。
if ("".equals(s.trim())) {
continue;
} else if ("<tbody id=\"listdata\">".equals(s.trim())) {
beginFind = true;
} else if ("</tbody>".equals(s.trim())) {
break;
}
3.解析内容
利用正则表达式删除我们关心的内容中的所有标签,留下内容。
private static String findContent(String html) {
// 配置html标记。
Pattern p = Pattern.compile("<(\\S*?)[^>]*>.*?| <.*? />");
Matcher m = p.matcher(html);
String rs = new String(html);
// 找出所有html标记。
while (m.find()) {
// 删除html标记。
rs = rs.replace(m.group(), "");
}
return rs;
}
4. 展示内容
根据我们得到的内容,用表格的形式展示,表格的形式是挺好看,但不好保存,这点随后的版本会考虑保存的问题,现在就先这样吧。这里用到了我以前写的一个JTable的jar包,可以方便的生成一个可以自动排序的JTable。
tableOp = new DefaultZTableFactory();
// 设置table信息生成Table。
tableOp.setTableInfors(tableHeader, tableBody, colWidth);
// 得到Table。
ztable = tableOp.getZTable();
// 设置Table的样式, 隔行变色。
tableOp.setTableStyle(ztable);
5. 附件是源码和打包好的EXE文件,欢迎大家交流。
6. 相关内容
《Eclipse 打第三方Jar包 插件 net.sf.fjep.fatjar》
http://javapub.iteye.com/blog/712695,将第三方的Jar包,打入我们自己的Jar包中。
《Eclipse 将Jar包打成Exe运行 exe4j》
http://javapub.iteye.com/blog/712729,将一个Jar包打成EXE文件。
《Swing JTable工厂(table4j)》
http://javapub.iteye.com/blog/686157,一个JTable工厂,生成自动排序,隔行变色的JTable,并可以线程安全的操作JTable的增删改查。
文章地址:
http://javapub.iteye.com/blog/721465
分享到:
相关推荐
2020SEO百度长尾关键词挖掘工具2020SEO百度长尾关键词挖掘工具2020SEO百度长尾关键词挖掘工具2020SEO百度长尾关键词挖掘工具2020SEO百度长尾关键词挖掘工具2020SEO百度长尾关键词挖掘工具2020SEO百度长尾关键词挖掘...
关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具关键词挖掘工具
百度关键词分析工具,用于分析百度的关键词
百度关键词挖掘
艾奇学院关键词工具百度关键词获取分析,竞争力,指数分析
百度关键词 多层抓取 本软件为免费、绿色、免安装软件,主要功能是多层采集百度相关关键词, 可以批量设置种子关键词,可以设制延时处理,可以设置多层采集, 最多情况下,一个关键词,可以采集相关 关键词近一万...
查查看SEO优化公司推荐大家使用百度关键词分析工具。关键词分析是SEO中的重要工作之一,百度关键词分析软件能够统计出该关键词的相关搜索与在不同时间段的关注度,及相关网页的数量。分析按钮后轻松以WEB页面的形式...
百度竞价推广关键词自动分词工具,wps可用,需启用宏
百度关键字分析工具,很不错的seo工具百度关键字分析工具,很不错的seo工具
光年百度关键词工具,杭州光年(shop123)推出的百度关键词工具通过百度推广平台后台批量查词关键词的扩展词,只要一键导入主关键词即可自动获取该行业的相关新词,热词,长尾词
百度相关搜素关键词工具,作站和SEO必备的工具
战神秒推百度关键词工具
关键词分词工具带宏关键词分词工具带宏关键词分词工具带宏关键词分词工具带宏关键词分词工具带宏
百度关键词分析工具
seo工具,关键词分析工具,百度关键词分析
熊猫关键词工具是一款基于百度,搜狗,360搜索,淘宝的长尾词挖掘软件。软件小巧好用,挖掘速度快,是站长日常必备软件。 熊猫关键词工具 更新日志: 2016.11.17 1.下线站长工具接口,新增阿里巴巴数据接口 2.修正...
百度关键词排名批量查询工具 1.双击任意单元格可强行停止程序运行 2.程序运行期间不要对本表进行任何操作 软件说明: 1.请先设置启用所有宏 2.A列放关键词 3.D1单元格填写目标网址 4.点击数据采集执行程序
百度关键字最新破解版,内附详细教程,助你轻松知道你需要的关键字在各大搜索引擎竞价排名。
百度关键词点击工具.rar.rar