@HUST-SuWB
2015-12-15T00:53:21.000000Z
字数 12307
阅读 593
项目实战
所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。推荐算法的主要类型有基于内容的推荐、协同过滤推荐(基于用户、基于物品)、基于关联规则的推荐等。在Mahout的算法实现中,重点放在协同过滤推荐上,因为这种推荐方式是最通用的,理论上不受推荐对象的影响,可以用于各种事物的推荐。
我的需求是为高校推荐他们后续可以合作的其他高校。基本思路是基于关联规则来推荐,即在历史数据中找出所有高校之间的关联度,以此关联度作为评分。当为某个具体的高校进行推荐的时候,推荐结果就是此高校没有合作过,但是是与跟此高校合作过的其他高校关联度最高的。
一个典型的输入数据如下
| 学校1 | 学校2 | 关联度 |
|---|---|---|
| 华中科技大学 | 武汉大学 | 10 |
| 武汉大学 | 华中科技大学 | 10 |
| 华中科技大学 | 武汉理工大学 | 8 |
| 武汉理工大学 | 华中科技大学 | 8 |
P.S. 给高校做推荐只是个例子,对于实际需求来说,给予学校推荐后续可以合作的高校并不合理,因为高校不是项目申报立项过程中的主体,主体是具体的人,所以人和人之间的关联关系放大到高校层面不具备指导意义。
import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.Collection;import java.util.HashMap;import java.util.HashSet;import java.util.List;import java.util.Map;import java.util.Map.Entry;import java.util.Set;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.SequenceFile;import org.apache.hadoop.io.Text;import org.apache.mahout.common.Pair;import org.apache.mahout.fpm.pfpgrowth.convertors.ContextStatusUpdater;import org.apache.mahout.fpm.pfpgrowth.convertors.SequenceFileOutputCollector;import org.apache.mahout.fpm.pfpgrowth.convertors.string.StringOutputConverter;import org.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns;import org.apache.mahout.fpm.pfpgrowth.fpgrowth.FPGrowth;import tool.CsvTool;/*** 关联分析测试* @author suwb* @since 2015-12-14*/public class Association {private static int minSupport = 2;//设置最小支持度private static final String UNIVERSITY_PATH = "F:\\source\\association\\university_out.dat";private static final String CSV_PATH = "F:\\source\\association\\关联规则输出.csv";//准备源数据public List<Object[]> getData(){Dao jdbcDao = new Dao();//定义关联规则挖掘器的输入数据List<Object[]> dataItems = new ArrayList<Object[]>();//高校与高校之间的关联性//查询项目中有高校合作研究的情况,并转换为关联规则挖掘器的输入数据格式//所有立项项目所属高校List<Object[]> univs4Project = null;//所有立项项目项目成员所在高校List<Object[]> univs4Member = null;//所有立项项目所属高校String projectHql = "SQL";univs4Project = jdbcDao.queryBySql(projectHql);//所有立项项目项目成员所在高校String memberHql = "SQL";univs4Member = jdbcDao.queryBySql(memberHql);//项目id -> 高校集合的映射(set去重)Map<String, Set<String>> univMap = new HashMap<String, Set<String>>();//根据项目id,遍历项目所有成员的高校信息for (Object[] objs : univs4Member) {Set<String> univs = univMap.get(objs[0]);if (univs == null) {univs = new HashSet<String>();univMap.put((String)objs[0], univs);}univs.add((String)objs[1]);}//根据项目id,遍历项目的高校信息for (Object[] objs : univs4Project) {Set<String> univs = univMap.get(objs[0]);if (univs != null) {univs.add((String)objs[1]);}}//准备关联规则挖掘器的输入数据for (Entry<String, Set<String>> entry : univMap.entrySet()) {Set<String> univs = entry.getValue();dataItems.add(univs.toArray());}return dataItems;}//生成频繁模式,并序列化@SuppressWarnings("deprecation")public void getFrequentPatternFile() throws IOException{List<Object[]> dataItems = getData();//采用FP-bonsai pruning而实现更快的频繁模式增长(Frequent Pattern Growth)算法FPGrowth<String> fp = new FPGrowth<String>();// 所有事务集合Collection<Pair<List<String>, Long>> transactions = new ArrayList<Pair<List<String>, Long>>();// 构建transactions:pair事务集for (Object[] dataItem : dataItems) {List<String> list = new ArrayList<String>();for (int i = 0; i < dataItem.length; i++) {if (dataItem[i] != null) {list.add(String.valueOf(dataItem[i]));}}transactions.add(new Pair<List<String>, Long>(list, 1L));}//设置输出文件路径String tmpFilePath = UNIVERSITY_PATH;File tmpFile = new File(tmpFilePath);String tmpDirPath = null; //临时文件路径if (!tmpFile.exists()) {tmpDirPath = tmpFilePath.substring(0, tmpFilePath.indexOf("university_out.dat"));//从文件路径中截取文件夹得路径tmpFile = File.createTempFile("university_out", ".dat", new File(tmpDirPath));//在上一步的文件夹中创建新文件fpg_out.dat文件}Path path = new Path(tmpFile.getAbsolutePath());Configuration conf = new Configuration();FileSystem fs = FileSystem.get(conf);//构造序列化文件写入器SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, path, Text.class, TopKStringPatterns.class);// 在给定的事务流和最小支持度下,为每个属性生成前K频繁模fp.generateTopKFrequentPatterns(transactions.iterator(), //待挖掘的事务迭代器fp.generateFList(transactions.iterator(), (int) minSupport),minSupport, //最小支持度1000, //各属性显示前K条(Number of top frequent patterns to keep)null,new StringOutputConverter(new SequenceFileOutputCollector<Text, TopKStringPatterns>(writer)),new ContextStatusUpdater(null));writer.close();}//将关联结果写入文件@SuppressWarnings("deprecation")public void writeAssociationToFile(){String tmpDirPath = UNIVERSITY_PATH.substring(0, UNIVERSITY_PATH.indexOf("university_out.dat"));//从文件路径中截取文件夹得路径File file = new File(tmpDirPath);File[] listFile = file.listFiles();Path path = null;for(File thisFile : listFile){if(thisFile.getName().contains("university") && !thisFile.getName().contains("crc")){path = new Path(thisFile.getAbsolutePath());}}Configuration conf = new Configuration();//调用mahout读取接口方法,从频繁模式库中读取频繁模式集List<Pair<String, TopKStringPatterns>> frequentPatterns = FPGrowth.readFrequentPattern(conf, path);Map<String, List<Object[]>> assoMap = new HashMap<String, List<Object[]>>();//对所有频繁模式进行遍历for (Pair<String, TopKStringPatterns> fps : frequentPatterns) {String key = fps.getFirst(); //如:key=华中科技大学TopKStringPatterns value = fps.getSecond();// System.out.println("key:" + key + " | value:" + value);List<Object[]> data = new ArrayList<Object[]>();//获取当前关键词key下所有模式List<Pair<List<String>, Long>> patterns = value.getPatterns();for(Pair<List<String>, Long> pair: patterns) {List<String> itemNames = pair.getFirst(); // 获取模式的元素名,如:[华中科技大学, 武汉大学, 湖北大学]Long occurrence = pair.getSecond(); // 获取模式的频繁度,如:10或6for(String itemName: itemNames) {if (!itemName.equals(key)) {//过滤掉key自身data.add(new Object[]{itemName, occurrence});}}}if (data.size() > 0) {assoMap.put(key, data);//map格式样例:{华中科技大学, [[武汉大学, 48], [湖北大学, 11]], [武汉大学, 7]]}}}List<String[]> dataList = new ArrayList<String[]>();//关联结果集for(String key : assoMap.keySet()){List<Object[]> value = assoMap.get(key);Map<String, Long> map = new HashMap<String, Long>();for(Object[] o : value){if(map.get(o[0]) == null){map.put(o[0].toString(), (Long)o[1]);}else {map.put(o[0].toString(), map.get(o[0]) + (Long)o[1]);}}for(String k : map.keySet()){dataList.add(new String[]{key, k, map.get(k).toString()});//dataList格式样例:[[华中科技大学, 武汉大学, 48], [武汉科技大学, 湖北大学, 11]]}}String[] header = {"user1", "user2", "评分"};CsvTool.writeCsv(CSV_PATH, header, dataList);}public void run(){try {getFrequentPatternFile();} catch (IOException e) {e.printStackTrace();}writeAssociationToFile();}}
import java.io.File;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.IRStatistics;import org.apache.mahout.cf.taste.eval.RecommenderBuilder;import org.apache.mahout.cf.taste.eval.RecommenderEvaluator;import org.apache.mahout.cf.taste.eval.RecommenderIRStatsEvaluator;import org.apache.mahout.cf.taste.impl.eval.AverageAbsoluteDifferenceRecommenderEvaluator;import org.apache.mahout.cf.taste.impl.eval.GenericRecommenderIRStatsEvaluator;import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;import org.apache.mahout.cf.taste.model.DataModel;import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;import org.apache.mahout.cf.taste.recommender.RecommendedItem;import org.apache.mahout.cf.taste.recommender.Recommender;import org.apache.mahout.cf.taste.similarity.UserSimilarity;import tool.CsvTool;/*** 推荐测试* Mahout中的推荐由多个组件组成* 1、数据模型,由DataModel实现;* 2、用户间的相似性度量 ,由UserSimilarity实现;* 3、用户邻域的定义,由UserNeighborhood实现;* 4、推荐引擎,由一个Recommender实现。* 基本原理见《Mahout实战》P36* @author suwb* @since 2015-12-08*/public class Recommendation {private static final String ASSOCIATION_SOURCE = "F:\\source\\association\\关联规则输出.csv";private static final String RECOMMENDATION_SOURCE = "F:\\source\\recommendation\\推荐算法输入数据.csv";private static Map<String, Integer> map;private static String userName = "华中科技大学";public Recommendation(){if(map == null){initName2IdMap();}}//运行推荐算法public List<RecommendedItem> work(long userId) throws Exception{DataModel model = new FileDataModel(new File(RECOMMENDATION_SOURCE));UserSimilarity similarity = new PearsonCorrelationSimilarity(model);UserNeighborhood neighborhood = new NearestNUserNeighborhood(50, similarity, model);Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity);return recommender.recommend(userId, 5);}//算法效果评分//评分越小越好public void evaluateScore() throws Exception{DataModel model = new FileDataModel(new File(RECOMMENDATION_SOURCE));RecommenderEvaluator evaluator = new AverageAbsoluteDifferenceRecommenderEvaluator();RecommenderBuilder builder = new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel model) throws TasteException {UserSimilarity similarity = new PearsonCorrelationSimilarity(model);UserNeighborhood neighborhood = new NearestNUserNeighborhood(90, similarity, model);return new GenericUserBasedRecommender(model, neighborhood, similarity);}};double score = evaluator.evaluate(builder, null, model, 0.7, 1);System.out.println(score);}//评估查准率和查全率public void evaluateRate() throws Exception{DataModel model = new FileDataModel(new File(RECOMMENDATION_SOURCE));RecommenderIRStatsEvaluator evaluator = new GenericRecommenderIRStatsEvaluator();RecommenderBuilder builder = new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel model) throws TasteException {UserSimilarity similarity = new PearsonCorrelationSimilarity(model);UserNeighborhood neighborhood = new NearestNUserNeighborhood(90, similarity, model);return new GenericUserBasedRecommender(model, neighborhood, similarity);}};IRStatistics stats = evaluator.evaluate(builder, null, model, null, 5,GenericRecommenderIRStatsEvaluator.CHOOSE_THRESHOLD,1);System.out.println(stats.getPrecision());System.out.println(stats.getRecall());}public String getNameById(int id){String name = "";for(String key : map.keySet()){if(map.get(key) == id){name = key;break;}}return name;}public void initName2IdMap(){map = new HashMap<String, Integer>();Dao dao = new Dao();int i = 1001;List<Object[]> unitName = dao.queryBySql("select c_name from t_agency where c_type='3' or c_type='4'");for(Object[] o : unitName){map.put(o[0].toString(), i);i++;}}public void run() throws Exception{List<Object[]> dataList = CsvTool.readCsv(ASSOCIATION_SOURCE);List<String[]> data = new ArrayList<String[]>();for(int i=1; i<dataList.size(); i++){Object[] o = dataList.get(i);data.add(new String[]{map.get(o[0]).toString(), map.get(o[1]).toString(), o[2].toString()});}CsvTool.writeCsv(RECOMMENDATION_SOURCE, null, data);evaluateScore();evaluateRate();List<RecommendedItem> recommendedList = work(new Long(map.get(userName)));for (RecommendedItem item : recommendedList) {System.out.printf("(%s,%f)", getNameById(Integer.parseInt(String.valueOf(item.getItemID()))), item.getValue());}}}
package tool;import java.io.IOException;import java.nio.charset.Charset;import java.util.ArrayList;import java.util.List;import com.csvreader.CsvReader;import com.csvreader.CsvWriter;/*** CSV工具包* @author suwb*/public class CsvTool {/*** 写CSV文件* @param outFilePath 数据文件路径* @param header 内容第一行标题* @param dataList 内容*/public static void writeCsv(String outFilePath, String[] header, List<String[]> dataList) {CsvWriter writer = null;try {writer = new CsvWriter(outFilePath, ',', Charset.forName("UTF-8"));//写文件头if(header != null){writer.writeRecord(header);}//写文件内容for (String[] datas : dataList) {writer.writeRecord(datas);}} catch (IOException e) {e.printStackTrace();} finally {writer.close();}}/*** 读CSV文件* @param csvFilePath* @throws Exception*/public static List<Object[]> readCsv(String csvFilePath) throws Exception {// 返回结果List<Object[]> datas = new ArrayList<Object[]>();CsvReader reader = new CsvReader(csvFilePath, ',', Charset.forName("UTF-8"));//读文件内容while (reader.readRecord()) {datas.add(reader.getValues());}return datas;}}
推荐由以下几个组件组成:
1、数据模型,由DataModel实现;
2、用户间的相似性度量 ,由UserSimilarity实现;
3、用户邻域的定义,由UserNeighborhood实现;
4、推荐引擎,由一个Recommender实现。
做好这几部就能得到基本的推荐结果,剩下的就是调优了。
我这里有个问题在于,针对当下的推荐需求,我拿不到评分的数据,所以我的推荐程序的输入数据来源于先进行了一次关联分析得到的结果,以高校间的关联度作为高校的评分。
几个典型的推荐结果如下:
对武汉大学的推荐:(武汉大学,24.060883)(西北师范大学,10.000000)(黑龙江大学,6.448706)(西安交通大学,5.522729)(兰州交通大学,5.000000)对华中科技大学的推荐:(华中科技大学,27.968401)(新疆大学,16.533577)(新疆医科大学,12.936143)(海南大学,7.918249)(西安交通大学,6.500000)对清华大学的推荐:(清华大学,10.495702)(中南财经政法大学,7.616104)(哈尔滨师范大学,5.000000)(华东政法大学,4.476559)(浙江工商大学,3.679918)对北京大学的推荐:(新疆师范大学,7.000000)(南京师范大学,7.000000)(西安交通大学,5.500000)(聊城大学,5.468179)(西华师范大学,4.000000)对电子科技大学的推荐:(广东工业大学,19.635860)(浙江大学,15.270090)(南京理工大学,15.048809)(广东财经大学,13.014910)(湖南商学院,10.524227)
解释一下为什么推荐结果集中会出现自己。原因在于我的输入数据中,user1、user2是对等的,就像我在需求分析里举的典型的输入数据,两所高校间的关联数据会出现两次,也就是说对于一所高校来说,它既是user,也是item。所以对一个user推荐一个item的时候,是可能推荐到自己的。而这里结果多次出现了自己,也正证实了推荐算法的有效性。算法是在一大堆的数据中发现item中的"华中科技大学"特别适合user中的"华中科技大学"的。