99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

合肥生活安徽新聞合肥交通合肥房產生活服務合肥教育合肥招聘合肥旅游文化藝術合肥美食合肥地圖合肥社保合肥醫院企業服務合肥法律

代寫MET CS777 Large-Scale Text Processing

時間:2024-02-25  來源:合肥網hfw.cc  作者:hfw.cc 我要糾錯


Assignment 4

 

Large-Scale Text Processing

 

MET CS777

 

Description

 

In this assignment you will implement k-nearest neighbor classifier (KNNclassifier) to classify text documents. For example, given a search text “ How many goals did

 

Vancouver score last year?”, the algorithm searches all the documents corpus (corpus: large and structural text) and returns the top K similar documents.

 

The TF-IDF (Term Frequency - Inverse Document Frequency) is used as the similarity/distance measure between two document/texts.

 

In the first step, the top 20k English words of the corpus will be selected, then the TF-IDF matrix of a text corpus get computed, which is used to find similarity between the texts.

 

Wikipedia dataset

 

In this assignment, the Wikipedia data set is used. The entire Wikipedia data set has been downloaded from (https://dumps.wikimedia.org) and stored in a large file.

 

Each Wikipedia Page is a document and have a unique document ID and a

 

specific URL. For example,

 

• docID 418348

 

• URLhttps://en.wikipedia.org/wiki?curid=418348

 

Data format

 

Each line is a single document in a pseudo XML format.

 

 

 

Small Data Set - Wikipedia Pages

 

You can find a small data set (Only 1000 Wikipedia pages) on AWS S3:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1000LinesSmall.txt

 

Large Data Set

 

Large data set consists of 1 million pages (2.2 GB) and can be found here:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1m.txt

 

Categories of the large data of Wikipedia can be found here:

 

s3://metcs777-sp24/data/wiki-categorylinks.csv.bz2

 

Templates

 

Use Assignment4-Template.[ipynb/py] as starting point for your implementation.

 

Tasks

 

Task 1 (10 points): Generate a 20K dictionary

 

Task 1.1 - Using Wikipedia pages, find the top 20,000 English words, save them in an array, and sort them based on the frequency of the occurrence.

 

Task 1.2 - As a result, adictionary has been generated that contains the top 20K most frequent words in the corpus. Next go over each Wikipedia document and check if the words appear in the Top 20K words. At the end, produce an RDD that includes the docID as key and a Numpy array for the position of each word in the top 20K dictionary.

 

(docID, [dictionaryPos1,dictionaryPos2,dictionaryPos3...])

 

Task 2 (20 Points): Create the TF-IDF Array

 

After having the top 20K words we want to create a large array that its columns are the words of the dictionary with number of occurrences of each word and the rows are documents.

 

The first step is calculating the “Term Frequency”, TF (x, w), vector for each document as follows:

 

 

 

“Term Frequency” is an indication of the number of times a term occurs in a document. Numerator is number of occurrences of a word, and the denominator is the sum of all    the words of the document.

 

Next, calculate “Inverse Document Frequency” for all the documents and finally calculate TF-IDF(w) and create TF-IDF matrix of the corpus:

 

 

 

Note that the “size of corpus” is total number of documents (numerator). To learn more about TF-IDF see the Wikipedia page: https://en.wikipedia.org/wiki/Tf-idf

 

Task 3 - Implement the getPrediction function (30 Points)

 

Finally, implement the function getPrediction(textInput, k),which will predict the membership of the textInput to the top 20 closest documents, and the list of top categories.

 

You should use the cosine similarity to calculate the distances.

 

 

 

Task 4 (30 points): Implement the code using Dataframes

 

Implement the complete code in Dataframe and printout the results of the task 3 using dataframes in pyspark. From the beginning of your code to the end of your kNN implementation you are allowed to usespark dataframe and python (including python libraries like numpy). You are not allowed to use RDDs.

 

Task 5 (10 points) Removing Stop Words and Do Stemming

 

Task 5.1 - Remove Stop Words

 

Describe if removing the English Stop words (most common words like ”a, the, is, are, i, you, ...”) would change the final kNN results.

 

Does your result change significantly after removing the stop words? Why?

 

Provide reasons.

 

You do not need to code this task.

 

Task 5.2 - Considering English word stemming

 

We can stem the words [”game”,”gaming”,”gamed”,”games”] to their root word ”game” .

 

Does stemming change your result significantly? Why? Provide reasons.

 

You can learn more about stemming at:

 

https://en.wikipedia.org/wiki/Stemming

 

You do not need to code this task.

 

Submission Guidelines

 

● Naming Convention:

 

METCS777-Assignment3-[TaskX-Y]FIRST+LASTNAME.[pdf/py/ipynb]

 

Where:

 

o [TaskX-Y] doesn’t apply for .[pdf] files

 

o No space between first and lastname

 

● Files:

 

o Create one document in pdf that has screenshots of running results of all coding problems. For each task, copy and paste the results that your lastSpark job saved in the bucket. Also, for each Spark job, include a screenshot of the Spark History. Explain clearly and precisely the results.

 

o Include output file for each task.

 

o Please submit each file separately (DO NOT ZIP them!!!).

 

● For example, sample submission of John Doe’s Assignment 4 should be the following files:

 

o METCS777-Assignment4-JohnDoe.pdf

 

o METCS777-Assignment4-Task**4-JohnDoe.ipynb

 

o METCS777-Assignment4-Task**JohnDoe.py

 

o METCS777-Assignment4-Task**Output-JohnDoe.txt

 

o METCS777-Assignment4-Task2-JohnDoe.py

 

o METCS777-Assignment4-Task2-Output-JohnDoe.txt o …

 

 

 

Figure 1: Screenshot of Spark History

 

 

Evaluation Criteria for Coding Tasks

 

 

Academic Misconduct Regarding Programming

 

In a programming class like this, there is sometimes a very fine line between “cheating” and acceptable and beneficial interaction between peers. Thus, it is very important that  you fully understand what is and what is not allowed in terms of collaboration with your classmates. We want to be 100% precise,so that there can be no confusion.

 

The rule on collaboration and communication with your classmates is as follows: you cannot transmit or receive code from or to anyone in the class in anyway —visually (by  showing someone your code), electronically (by emailing, posting, or otherwise sending someone your code), verbally (by reading code to someone) or in any other way we have not yet imagined. Any other collaboration is acceptable.

 

It is not allowed to collaborate and communicate with people who are not your classmates (or your TAs or instructor). This means posting any questions of any nature to programming forums such as StackOverflow is strictly prohibited. As far as going to  the web and using Google, we will apply the “two-line rule”. Go to any web page you   like and do any search that you like. But you cannot take more than two lines of code   from an external resource and include it in your assignment in any form. Note that changing variable names or otherwise transforming or obfuscating code you found on  the web does not render the “two-line rule” inapplicable. It is still a violation to obtain more than two lines of code from an external resource and turn it in, whatever you do to those two lines after you first obtain them.

 

Furthermore, you must always cite your sources. Add a comment to your code that includes the URL(s) that you consulted when constructing your solution. This turns out to be very helpful when you’re looking at something you wrote a while ago and you need to remind yourself what you were thinking.

請加QQ:99515681  郵箱:99515681@qq.com   WX:codehelp 

掃一掃在手機打開當前頁
  • 上一篇:System Calls程序代做、代寫Manage Files
  • 下一篇:代寫CSC8636 – Summative Assessment
  • 無相關信息
    合肥生活資訊

    合肥圖文信息
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    出評 開團工具
    出評 開團工具
    挖掘機濾芯提升發動機性能
    挖掘機濾芯提升發動機性能
    海信羅馬假日洗衣機亮相AWE  復古美學與現代科技完美結合
    海信羅馬假日洗衣機亮相AWE 復古美學與現代
    合肥機場巴士4號線
    合肥機場巴士4號線
    合肥機場巴士3號線
    合肥機場巴士3號線
    合肥機場巴士2號線
    合肥機場巴士2號線
    合肥機場巴士1號線
    合肥機場巴士1號線
  • 短信驗證碼 豆包 幣安下載 AI生圖 目錄網

    關于我們 | 打賞支持 | 廣告服務 | 聯系我們 | 網站地圖 | 免責聲明 | 幫助中心 | 友情鏈接 |

    Copyright © 2025 hfw.cc Inc. All Rights Reserved. 合肥網 版權所有
    ICP備06013414號-3 公安備 42010502001045

    99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

          9000px;">

                91性感美女视频| 久久久综合视频| 久久精品欧美一区二区三区不卡 | 久草这里只有精品视频| 91精品国产综合久久久久久漫画| 丝袜诱惑制服诱惑色一区在线观看| 4438亚洲最大| 国产精品一区二区果冻传媒| 国产精品久久久久久久久久免费看| 成人av电影在线网| 午夜精品久久一牛影视| 久久久久久一二三区| 99精品偷自拍| 国产在线不卡视频| 亚洲国产日日夜夜| 久久精品视频免费| 欧美精品高清视频| eeuss国产一区二区三区| 免费在线看一区| 亚洲欧美国产高清| 中文字幕电影一区| 精品入口麻豆88视频| 色狠狠桃花综合| 国产麻豆精品95视频| 亚洲色图在线播放| 日韩午夜中文字幕| 91官网在线观看| 国产一区二区三区四区五区入口| 亚洲国产精品久久久男人的天堂 | 久久久久久免费| 欧美专区日韩专区| 99国产精品国产精品久久| 国产成人综合在线观看| 青娱乐精品视频| 亚洲成人7777| 亚洲综合在线第一页| 亚洲图片你懂的| 日本一区二区不卡视频| 久久综合999| 欧美电影免费提供在线观看| 欧美日韩日日骚| 91性感美女视频| 91性感美女视频| 色香蕉久久蜜桃| 日本乱码高清不卡字幕| 色综合久久88色综合天天免费| 福利一区二区在线观看| 国产成人在线视频网站| 精品在线免费视频| 激情深爱一区二区| 国内成人精品2018免费看| 久久99热这里只有精品| 极品少妇一区二区三区精品视频| 美女精品一区二区| 裸体歌舞表演一区二区| 蜜桃91丨九色丨蝌蚪91桃色| 蜜臀91精品一区二区三区| 日本不卡一区二区| 久久99热这里只有精品| 激情丁香综合五月| 国产中文字幕精品| caoporen国产精品视频| 色婷婷亚洲一区二区三区| 欧美日韩高清一区二区| 日韩欧美二区三区| 国产日韩三级在线| 亚洲免费电影在线| 日韩av中文在线观看| 国产精品综合网| 91视频观看视频| 欧美精品成人一区二区三区四区| 久久久午夜电影| 亚洲欧美精品午睡沙发| 亚洲午夜一二三区视频| 日本中文字幕不卡| 成人小视频免费在线观看| 色综合久久88色综合天天| 日韩欧美一区在线| 国产欧美日韩一区二区三区在线观看| 中文字幕一区二区三区在线不卡| 亚洲第一成年网| 国产曰批免费观看久久久| 97精品超碰一区二区三区| 欧美私模裸体表演在线观看| 久久综合网色—综合色88| 亚洲日本在线天堂| 美女视频黄免费的久久 | 在线精品视频免费观看| 日韩欧美国产一区二区三区| 国产精品污www在线观看| 亚洲自拍偷拍综合| 国精产品一区一区三区mba桃花| 国产**成人网毛片九色| 欧美区在线观看| 国产精品第13页| 精品亚洲成a人在线观看| 欧美在线影院一区二区| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 高清不卡在线观看av| 69堂成人精品免费视频| 亚洲三级小视频| 国产精品一区二区你懂的| 欧美日本在线播放| 一区二区三区在线观看视频| 成人性生交大合| 2024国产精品| 蜜臀av一级做a爰片久久| 欧美区视频在线观看| 一区二区三区高清不卡| 99精品桃花视频在线观看| 久久久精品免费网站| 激情综合色丁香一区二区| 91麻豆精品国产91久久久久久| 一区二区三区精品| 欧美性大战久久久| 亚洲第一av色| 欧美久久一区二区| 五月激情综合色| 在线一区二区三区四区| 亚洲综合色噜噜狠狠| 91亚洲精品久久久蜜桃网站| 日韩一区中文字幕| 成人三级伦理片| 中文字幕一区在线观看| 国产不卡一区视频| 国产精品卡一卡二| 色网综合在线观看| 一区二区成人在线| 在线影院国内精品| 亚洲精品久久久蜜桃| 欧美性猛片aaaaaaa做受| 亚洲国产成人高清精品| 欧美日韩午夜在线| 午夜久久久影院| 91精品国产一区二区三区蜜臀| 日本最新不卡在线| 精品久久久久香蕉网| 国产精品一卡二| 自拍偷拍欧美激情| 欧美优质美女网站| 奇米精品一区二区三区四区 | 亚洲黄色免费电影| 欧美日韩一级视频| 美女爽到高潮91| 久久久国产综合精品女国产盗摄| 国产又粗又猛又爽又黄91精品| 中文字幕在线不卡视频| 在线亚洲欧美专区二区| 天天免费综合色| 久久青草欧美一区二区三区| 国产99久久久精品| 亚洲成人av在线电影| 欧美精品一区二区不卡| 成人av电影在线观看| 亚洲影视在线观看| 久久免费看少妇高潮| 成人国产免费视频| 日本在线观看不卡视频| 中文字幕不卡在线观看| 在线播放/欧美激情| 国产成人在线免费| 午夜精品一区二区三区免费视频| www国产成人| 884aa四虎影成人精品一区| 国产aⅴ精品一区二区三区色成熟| 亚洲国产一区二区视频| 国产丝袜欧美中文另类| 在线观看91视频| 高清视频一区二区| 久久精品国内一区二区三区| 亚洲精品久久久蜜桃| 国产视频在线观看一区二区三区| 欧美日韩一区二区三区免费看| 成人av集中营| 国产精品2024| 激情av综合网| 久久精品国产澳门| 日本aⅴ免费视频一区二区三区 | 亚洲精品写真福利| 国产日产欧产精品推荐色| 欧美一卡二卡在线| 欧美男女性生活在线直播观看| 91色视频在线| 91麻豆6部合集magnet| 豆国产96在线|亚洲| 国产乱子轮精品视频| 久久精品国产秦先生| 午夜精品久久一牛影视| 亚洲一区视频在线观看视频| 中文字幕一区二区三| www精品美女久久久tv| 日韩欧美黄色影院| 欧美一区二区三区视频免费播放| 欧美日韩一区高清| 精品视频一区二区三区免费| 色综合激情五月| 91女人视频在线观看| 91丨九色丨蝌蚪富婆spa| 91免费观看在线| 欧美影院午夜播放|