微信公众帐号开发教程第16篇-应用实例之历史上的今天

阿尔萨斯

浏览: 4166886 次

最近访客更多访客>>

snower_tt

iams13

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-10 ( 581)
2014-09 ( 572)
2014-08 ( 545)
更多存档...

内容概要

本篇文章主要讲解如何在微信公众帐号上实现“历史上的今天”功能。这个例子本身并不复杂，但希望通过对它的学习，读者能够对正则表达式有一个新的认识，能够学会运用现有的网络资源丰富自己的公众账号。

何谓历史上的今天

回顾历史的长河，历史是生活的一面镜子；以史为鉴，可以知兴衰；历史上的每一天，都是喜忧参半；可以了解历史的这一天发生的事件，借古可以鉴今，历史是不能忘记的。查看历史上每天发生的重大事情，增长知识，开拓眼界，提高人文素养。

寻找接口（数据源）

要实现查询“历史上的今天”，首先我们要找到相关数据源。笔者经过搜索发现，网络上几乎没有现成的“历史上的今天”API可以使用，所以我们只能通过爬取、解析网页源代码的方式得到我们需要的数据。笔者发现网站http://www.rijiben.com/上包含“历史上的今天”功能，就用它做数据源了。

开发步骤

为了便于读者理解，我们需要清楚该应用实例的开发步骤，主要如下：

1）发起HTTP GET请求，获取网页源代码。

2）运用正则表达式从网页源代码中抽取我们需要的数据。

3）对抽取得到的数据进行加工（使内容呈现更加美观）。

4）将以上三步进行封装，供外部调用。

5）在公众账号后台调用封装好的“历史上的今天”查询方法。

代码实现

笔者将上述步骤1）、2）、3）中的代码实现封装成了TodayInHistoryService类，并对外提供了getTodayInHistory()方法来获取“历史上的今天”。实现代码如下：

[java]view
 plaincopy

importjava.io.BufferedReader;

importjava.io.InputStream;

importjava.io.InputStreamReader;

importjava.net.HttpURLConnection;

importjava.net.URL;

importjava.text.DateFormat;

importjava.text.SimpleDateFormat;

importjava.util.Calendar;

importjava.util.regex.Matcher;

importjava.util.regex.Pattern;

/**

*历史上的今天查询服务

*

*@authorliufeng

*@date2013-10-16

*

*/

publicclassTodayInHistoryService{

/**

*发起httpget请求获取网页源代码

*

*@paramrequestUrl

*@return

*/

privatestaticStringhttpRequest(StringrequestUrl){

StringBufferbuffer=null;

try{

//建立连接

URLurl=newURL(requestUrl);

HttpURLConnectionhttpUrlConn=(HttpURLConnection)url.openConnection();

httpUrlConn.setDoInput(true);

httpUrlConn.setRequestMethod("GET");

//获取输入流

InputStreaminputStream=httpUrlConn.getInputStream();

InputStreamReaderinputStreamReader=newInputStreamReader(inputStream,"utf-8");

BufferedReaderbufferedReader=newBufferedReader(inputStreamReader);

//读取返回结果

buffer=newStringBuffer();

Stringstr=null;

while((str=bufferedReader.readLine())!=null){

buffer.append(str);

}

//释放资源

bufferedReader.close();

inputStreamReader.close();

inputStream.close();

httpUrlConn.disconnect();

}catch(Exceptione){

e.printStackTrace();

}

returnbuffer.toString();

}

/**

*从html中抽取出历史上的今天信息

*

*@paramhtml

*@return

*/

privatestaticStringextract(Stringhtml){

StringBufferbuffer=null;

//日期标签：区分是昨天还是今天

StringdateTag=getMonthDay(0);

Patternp=Pattern.compile("(.*)(<divclass=\"listren\">)(.*?)(</div>)(.*)");

Matcherm=p.matcher(html);

if(m.matches()){

buffer=newStringBuffer();

if(m.group(3).contains(getMonthDay(-1)))

dateTag=getMonthDay(-1);

//拼装标题

buffer.append("≡≡").append("历史上的").append(dateTag).append("≡≡").append("\n\n");

//抽取需要的数据

for(Stringinfo:m.group(3).split("")){

info=info.replace(dateTag,"").replace("（图）","").replaceAll("</?[^>]+>","").trim();

//在每行末尾追加2个换行符

if(!"".equals(info)){

buffer.append(info).append("\n\n");

}

}

}

//将buffer最后两个换行符移除并返回

return(null==buffer)?null:buffer.substring(0,buffer.lastIndexOf("\n\n"));

}

/**

*获取前/后n天日期(M月d日)

*

*@return

*/

privatestaticStringgetMonthDay(intdiff){

DateFormatdf=newSimpleDateFormat("M月d日");

Calendarc=Calendar.getInstance();

c.add(Calendar.DAY_OF_YEAR,diff);

returndf.format(c.getTime());

}

/**

*封装历史上的今天查询方法，供外部调用

*

*@return

*/

publicstaticStringgetTodayInHistoryInfo(){

//获取网页源代码

Stringhtml=httpRequest("http://www.rijiben.com/");

//从网页中抽取信息

Stringresult=extract(html);

returnresult;

}

/**

*通过main在本地测试

*

*@paramargs

*/

publicstaticvoidmain(String[]args){

Stringinfo=getTodayInHistoryInfo();

System.out.println(info);

}

}

代码解读：

1）27-58行代码是httpRequest()方法，用于发起http get请求，获取指定url的网页源代码。

2）66-92行代码是extract()方法，运用正则表达式从网页源代码中抽取“历史上的今天”数据。

3）111-118行代码是getTodayInHistory()方法，封装给外部调用查询“历史上的今天”。

4）125-128行代码是main方法，用于在本地的开发工具中测试。

5）75-76行代码的作用是判断获取到的“历史上的今天”数据是当天的还是前一天的（因为不能保证www.rijiben.com上的数据一定在凌晨零点准时更新，所以为了保证数据的准确性必须做此判断）。

6）第71行代码是本文的重点，笔者编写的正则表达式规则是“(.*)(<div class=\"listren\">)(.*?)(</div>)(.*)”。正则表达式规则需要根据网页源代码进行编写的，特别是包含“历史上的今天”数据的那部分HTML标签，所以我们先来查看网页源代码。通过httpRequest("http://www.rijiben.com/")方法获取到的网页源代码，与我们通过浏览器访问http://www.rijiben.com/页面再点击右键选择“查看网页源代码”所得到的结果完全一致。我们通过浏览器查看http://www.rijiben.com/的网页源代码，然后找到“历史上的今天”数据所在位置，如下图所示：

从上面的源代码截图中可以看到，我们需要的数据被包含在<div class="listren">标签内，这样就不难理解为什么正则表达式要这样写：

(.*)(<div class=\"listren\">)(.*?)(</div>)(.*)

我们使用括号()将正则表达式规则分成了5组，下面是这些分组的说明：

第1组：(.*)表示网页源代码中<div class="listren">标签之前还有任意多个字符。
第2组：(<div class=\"listren\">)中的反斜杠表示转义，所以该规则就是用于匹配<div class="listren">。
第3组：(.*?)表示在标签<div class="listren">和</div>之间的所有内容，这才是我们真正需要的数据所在。
第4组：(</div>)就是用于匹配<div class="listren">的结束标签。
第5组：(.*)表示在</div>标签之后还有任意多的字符。

掌握了正则表达式规则的含义，就不难理解为什么在extract()方法中全都是在使用m.group(3)，因为m.group(3)就表示匹配到数据的第3个分组。m.group(3)的内容如下：

[html]view
 plaincopy

<ul><li><ahref="/news6836/"title="0690年10月16日武则天登上皇位">0690年10月16日武则天登上皇位</a>（图）</li><li><ahref="/news6837/"title="1854年10月16日唯美主义运动的倡导者王尔德诞辰">1854年10月16日唯美主义运动的倡导者王尔德诞辰</a></li><li><ahref="/news6838/"title="1854年10月16日德国社会主义活动家考茨基诞生">1854年10月16日德国社会主义活动家考茨基诞生</a></li><li><ahref="/news6839/"title="1908年10月16日阿尔巴尼亚领导人恩维尔·霍查诞辰">1908年10月16日阿尔巴尼亚领导人恩维尔·霍查诞辰</a>（图）</li><li><ahref="/news6840/"title="1913年10月16日中国“两弹一星”元勋钱三强诞辰">1913年10月16日中国“两弹一星”元勋钱三强诞辰</a>（图）</li><li><ahref="/news6841/"title="1922年10月16日开滦煤矿工人失败">1922年10月16日开滦煤矿工人失败</a>（图）</li><li><ahref="/news6842/"title="1927年10月16日德国诺贝尔文学奖得主格拉斯诞生">1927年10月16日德国诺贝尔文学奖得主格拉斯诞生</a>（图）</li><li><ahref="/news6843/"title="1933年10月16日抗日同盟军失败">1933年10月16日抗日同盟军失败</a>（图）</li><li><ahref="/news6844/"title="1950年10月16日人民解放军进军西藏">1950年10月16日人民解放军进军西藏</a>（图）</li><li><ahref="/news6845/"title="1954年10月16日俞平伯《关于红楼梦研究问题的信》发表">1954年10月16日俞平伯《关于红楼梦研究问题的信》发表</a>（图）</li><li><ahref="/news6846/"title="1959年10月16日美军将领、国务卿马歇尔去世">1959年10月16日美军将领、国务卿马歇尔去世</a>（图）</li><li><ahref="/news6847/"title="1964年10月16日勃列日涅夫取代赫鲁晓夫成为苏共中央第一书记">1964年10月16日勃列日涅夫取代赫鲁晓夫成为苏共中央第一书记</a></li><li><ahref="/news6848/"title="1964年10月16日我国第一颗原子弹爆炸成功">1964年10月16日我国第一颗原子弹爆炸成功</a>（图）</li><li><ahref="/news6849/"title="1973年10月16日震撼世界的石油危机爆发">1973年10月16日震撼世界的石油危机爆发</a>（图）</li><li><ahref="/news6850/"title="1978年10月16日约翰·保罗二世当选新教皇">1978年10月16日约翰·保罗二世当选新教皇</a></li><li><ahref="/news6851/"title="1979年10月16日哈克将军宣布巴基斯坦推迟大选解散政党">1979年10月16日哈克将军宣布巴基斯坦推迟大选解散政党</a></li><li><ahref="/news6852/"title="1984年10月16日图图主教荣获“诺贝尔和平奖”">1984年10月16日图图主教荣获“诺贝尔和平奖”</a></li><li><ahref="/news6853/"title="1988年10月16日北京正负电子对撞机对撞成功">1988年10月16日北京正负电子对撞机对撞成功</a>（图）</li><li><ahref="/news6854/"title="1991年10月16日美国小镇枪杀案22人丧生">1991年10月16日美国小镇枪杀案22人丧生</a></li><li><ahref="/news6855/"title="1991年10月16日莫扎特死因有新说">1991年10月16日莫扎特死因有新说</a></li><li><ahref="/news6856/"title="1991年10月16日钱学森获“国家杰出贡献科学家”殊荣">1991年10月16日钱学森获“国家杰出贡献科学家”殊荣</a>（图）</li><li><ahref="/news6857/"title="1994年10月16日德国总理科尔四连任">1994年10月16日德国总理科尔四连任</a></li><li><ahref="/news6858/"title="1994年10月16日第十二届广岛亚运会闭幕">1994年10月16日第十二届广岛亚运会闭幕</a></li><li><ahref="/news6859/"title="1994年10月16日修秦陵制秦俑工匠墓葬被发现">1994年10月16日修秦陵制秦俑工匠墓葬被发现</a></li><li><ahref="/news6860/"title="1995年10月16日美国百万黑人男子大">1995年10月16日美国百万黑人男子大</a>（图）</li></ul>

可以看到，通过正则表达式抽取得到的m.group(3)中仍然有大量的html标签、空格、换行、无关字符等。我们要想办法把它们全部过滤掉，第83行代码的作用正是如此。

组装文本消息

[java]view
 plaincopy

//组装文本消息（历史上的今天）

TextMessagetextMessage=newTextMessage();

textMessage.setToUserName(fromUserName);

textMessage.setFromUserName(toUserName);

textMessage.setCreateTime(newDate().getTime());

textMessage.setMsgType(WeixinUtil.RESP_MESSAGE_TYPE_TEXT);

textMessage.setFuncFlag(0);

textMessage.setContent(TodayInHistoryService.getTodayInHistoryInfo());