99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

合肥生活安徽新聞合肥交通合肥房產生活服務合肥教育合肥招聘合肥旅游文化藝術合肥美食合肥地圖合肥社保合肥醫院企業服務合肥法律

代寫MET CS777 Large-Scale Text Processing

時間:2024-02-25  來源:合肥網hfw.cc  作者:hfw.cc 我要糾錯


Assignment 4

 

Large-Scale Text Processing

 

MET CS777

 

Description

 

In this assignment you will implement k-nearest neighbor classifier (KNNclassifier) to classify text documents. For example, given a search text “ How many goals did

 

Vancouver score last year?”, the algorithm searches all the documents corpus (corpus: large and structural text) and returns the top K similar documents.

 

The TF-IDF (Term Frequency - Inverse Document Frequency) is used as the similarity/distance measure between two document/texts.

 

In the first step, the top 20k English words of the corpus will be selected, then the TF-IDF matrix of a text corpus get computed, which is used to find similarity between the texts.

 

Wikipedia dataset

 

In this assignment, the Wikipedia data set is used. The entire Wikipedia data set has been downloaded from (https://dumps.wikimedia.org) and stored in a large file.

 

Each Wikipedia Page is a document and have a unique document ID and a

 

specific URL. For example,

 

• docID 418348

 

• URLhttps://en.wikipedia.org/wiki?curid=418348

 

Data format

 

Each line is a single document in a pseudo XML format.

 

 

 

Small Data Set - Wikipedia Pages

 

You can find a small data set (Only 1000 Wikipedia pages) on AWS S3:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1000LinesSmall.txt

 

Large Data Set

 

Large data set consists of 1 million pages (2.2 GB) and can be found here:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1m.txt

 

Categories of the large data of Wikipedia can be found here:

 

s3://metcs777-sp24/data/wiki-categorylinks.csv.bz2

 

Templates

 

Use Assignment4-Template.[ipynb/py] as starting point for your implementation.

 

Tasks

 

Task 1 (10 points): Generate a 20K dictionary

 

Task 1.1 - Using Wikipedia pages, find the top 20,000 English words, save them in an array, and sort them based on the frequency of the occurrence.

 

Task 1.2 - As a result, adictionary has been generated that contains the top 20K most frequent words in the corpus. Next go over each Wikipedia document and check if the words appear in the Top 20K words. At the end, produce an RDD that includes the docID as key and a Numpy array for the position of each word in the top 20K dictionary.

 

(docID, [dictionaryPos1,dictionaryPos2,dictionaryPos3...])

 

Task 2 (20 Points): Create the TF-IDF Array

 

After having the top 20K words we want to create a large array that its columns are the words of the dictionary with number of occurrences of each word and the rows are documents.

 

The first step is calculating the “Term Frequency”, TF (x, w), vector for each document as follows:

 

 

 

“Term Frequency” is an indication of the number of times a term occurs in a document. Numerator is number of occurrences of a word, and the denominator is the sum of all    the words of the document.

 

Next, calculate “Inverse Document Frequency” for all the documents and finally calculate TF-IDF(w) and create TF-IDF matrix of the corpus:

 

 

 

Note that the “size of corpus” is total number of documents (numerator). To learn more about TF-IDF see the Wikipedia page: https://en.wikipedia.org/wiki/Tf-idf

 

Task 3 - Implement the getPrediction function (30 Points)

 

Finally, implement the function getPrediction(textInput, k),which will predict the membership of the textInput to the top 20 closest documents, and the list of top categories.

 

You should use the cosine similarity to calculate the distances.

 

 

 

Task 4 (30 points): Implement the code using Dataframes

 

Implement the complete code in Dataframe and printout the results of the task 3 using dataframes in pyspark. From the beginning of your code to the end of your kNN implementation you are allowed to usespark dataframe and python (including python libraries like numpy). You are not allowed to use RDDs.

 

Task 5 (10 points) Removing Stop Words and Do Stemming

 

Task 5.1 - Remove Stop Words

 

Describe if removing the English Stop words (most common words like ”a, the, is, are, i, you, ...”) would change the final kNN results.

 

Does your result change significantly after removing the stop words? Why?

 

Provide reasons.

 

You do not need to code this task.

 

Task 5.2 - Considering English word stemming

 

We can stem the words [”game”,”gaming”,”gamed”,”games”] to their root word ”game” .

 

Does stemming change your result significantly? Why? Provide reasons.

 

You can learn more about stemming at:

 

https://en.wikipedia.org/wiki/Stemming

 

You do not need to code this task.

 

Submission Guidelines

 

● Naming Convention:

 

METCS777-Assignment3-[TaskX-Y]FIRST+LASTNAME.[pdf/py/ipynb]

 

Where:

 

o [TaskX-Y] doesn’t apply for .[pdf] files

 

o No space between first and lastname

 

● Files:

 

o Create one document in pdf that has screenshots of running results of all coding problems. For each task, copy and paste the results that your lastSpark job saved in the bucket. Also, for each Spark job, include a screenshot of the Spark History. Explain clearly and precisely the results.

 

o Include output file for each task.

 

o Please submit each file separately (DO NOT ZIP them!!!).

 

● For example, sample submission of John Doe’s Assignment 4 should be the following files:

 

o METCS777-Assignment4-JohnDoe.pdf

 

o METCS777-Assignment4-Task**4-JohnDoe.ipynb

 

o METCS777-Assignment4-Task**JohnDoe.py

 

o METCS777-Assignment4-Task**Output-JohnDoe.txt

 

o METCS777-Assignment4-Task2-JohnDoe.py

 

o METCS777-Assignment4-Task2-Output-JohnDoe.txt o …

 

 

 

Figure 1: Screenshot of Spark History

 

 

Evaluation Criteria for Coding Tasks

 

 

Academic Misconduct Regarding Programming

 

In a programming class like this, there is sometimes a very fine line between “cheating” and acceptable and beneficial interaction between peers. Thus, it is very important that  you fully understand what is and what is not allowed in terms of collaboration with your classmates. We want to be 100% precise,so that there can be no confusion.

 

The rule on collaboration and communication with your classmates is as follows: you cannot transmit or receive code from or to anyone in the class in anyway —visually (by  showing someone your code), electronically (by emailing, posting, or otherwise sending someone your code), verbally (by reading code to someone) or in any other way we have not yet imagined. Any other collaboration is acceptable.

 

It is not allowed to collaborate and communicate with people who are not your classmates (or your TAs or instructor). This means posting any questions of any nature to programming forums such as StackOverflow is strictly prohibited. As far as going to  the web and using Google, we will apply the “two-line rule”. Go to any web page you   like and do any search that you like. But you cannot take more than two lines of code   from an external resource and include it in your assignment in any form. Note that changing variable names or otherwise transforming or obfuscating code you found on  the web does not render the “two-line rule” inapplicable. It is still a violation to obtain more than two lines of code from an external resource and turn it in, whatever you do to those two lines after you first obtain them.

 

Furthermore, you must always cite your sources. Add a comment to your code that includes the URL(s) that you consulted when constructing your solution. This turns out to be very helpful when you’re looking at something you wrote a while ago and you need to remind yourself what you were thinking.

請加QQ:99515681  郵箱:99515681@qq.com   WX:codehelp 

掃一掃在手機打開當前頁
  • 上一篇:System Calls程序代做、代寫Manage Files
  • 下一篇:代寫CSC8636 – Summative Assessment
  • 無相關信息
    合肥生活資訊

    合肥圖文信息
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    出評 開團工具
    出評 開團工具
    挖掘機濾芯提升發動機性能
    挖掘機濾芯提升發動機性能
    海信羅馬假日洗衣機亮相AWE  復古美學與現代科技完美結合
    海信羅馬假日洗衣機亮相AWE 復古美學與現代
    合肥機場巴士4號線
    合肥機場巴士4號線
    合肥機場巴士3號線
    合肥機場巴士3號線
    合肥機場巴士2號線
    合肥機場巴士2號線
    合肥機場巴士1號線
    合肥機場巴士1號線
  • 短信驗證碼 豆包 幣安下載 AI生圖 目錄網

    關于我們 | 打賞支持 | 廣告服務 | 聯系我們 | 網站地圖 | 免責聲明 | 幫助中心 | 友情鏈接 |

    Copyright © 2025 hfw.cc Inc. All Rights Reserved. 合肥網 版權所有
    ICP備06013414號-3 公安備 42010502001045

    99爱在线视频这里只有精品_窝窝午夜看片成人精品_日韩精品久久久毛片一区二区_亚洲一区二区久久

          亚洲精品孕妇| 国产麻豆成人精品| 欧美一区二区三区免费观看视频| 激情综合中文娱乐网| 国产精品久久久久久av福利软件| 久久久99爱| 亚洲一区二区毛片| 亚洲欧洲精品一区二区三区| 国产视频丨精品|在线观看| 欧美日韩国产限制| 欧美成人国产一区二区| 久久精品二区| 午夜欧美大尺度福利影院在线看| 日韩网站免费观看| 亚洲第一网站免费视频| 国产一区二区在线免费观看| 国产伦精品一区二区三区| 国产精品福利网站| 欧美精品电影在线| 欧美日韩国产免费观看| 欧美国产视频在线| 免费h精品视频在线播放| 久久精品中文字幕一区| 久久不见久久见免费视频1| 小黄鸭精品密入口导航| 先锋亚洲精品| 性高湖久久久久久久久| 午夜激情一区| 久久成年人视频| 久久久国产91| 免费成人激情视频| 欧美精品激情blacked18| 欧美成人自拍视频| 欧美久久久久久久久| 欧美日韩成人在线播放| 欧美精品免费视频| 欧美特黄一级| 国产亚洲一区二区三区在线观看 | 欧美成在线视频| 免费欧美在线视频| 欧美激情一区二区三区蜜桃视频| 欧美喷水视频| 国产伦理一区| 在线观看欧美日本| 亚洲精品综合在线| 亚洲一区二区在线免费观看视频 | 午夜视频久久久| 久久天天躁狠狠躁夜夜av| 欧美freesex8一10精品| 欧美日韩免费网站| 国产一区二区毛片| 亚洲国产精品一区在线观看不卡| 亚洲免费观看高清完整版在线观看| 一区二区免费在线观看| 久久av二区| 欧美极品影院| 国产一区二区成人| 亚洲毛片在线观看.| 欧美一级精品大片| 欧美福利一区二区| 国产午夜精品理论片a级大结局 | 亚洲伦伦在线| 欧美在线二区| 欧美日韩国产天堂| 一区二区三区在线视频免费观看| 亚洲视频网站在线观看| 久久伊伊香蕉| 国产农村妇女精品| 99国内精品久久| 久久综合九色综合欧美狠狠| 国产精品超碰97尤物18| 亚洲日韩欧美视频一区| 久久精品91久久香蕉加勒比| 欧美日韩999| 亚洲电影在线看| 久久久999成人| 国产精品影视天天线| 亚洲免费成人| 欧美成人精品h版在线观看| 国产私拍一区| 欧美一区二区三区四区夜夜大片| 欧美久色视频| 亚洲欧洲一区二区在线观看 | 国产亚洲精品久久久| 亚洲一区二区三区四区视频| 欧美日韩精品一区二区天天拍小说 | 亚洲国产精品va在线观看黑人| 欧美一级欧美一级在线播放| 国产精品久久二区二区| 一区二区三区四区精品| 欧美久久婷婷综合色| 亚洲人成在线观看一区二区| 久久婷婷蜜乳一本欲蜜臀| 狠久久av成人天堂| 久久精品视频在线| 极品av少妇一区二区| 久久久免费精品| 在线观看成人一级片| 久久综合九色欧美综合狠狠| 精品不卡一区| 欧美大片免费久久精品三p| 在线欧美福利| 欧美了一区在线观看| 夜夜夜精品看看| 国产精品久久二区二区| 性感少妇一区| 国产综合色产| 欧美电影免费网站| av成人手机在线| 国产九色精品成人porny| 欧美一区二区成人6969| 在线观看国产一区二区| 欧美精品一线| 亚洲一区二区三区影院| 国产在线精品一区二区中文| 久久婷婷成人综合色| 亚洲免费观看视频| 国产精品成人在线| 久久久久久久尹人综合网亚洲 | 亚洲电影成人| 欧美日韩福利视频| 欧美伊人精品成人久久综合97| 国产专区综合网| 欧美激情bt| 小处雏高清一区二区三区| 一区在线影院| 国产精品美女一区二区| 久久一本综合频道| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产伦理一区| 欧美精品一区二区精品网 | 久久久7777| 99一区二区| 黄色在线一区| 国产久一道中文一区| 欧美国产视频一区二区| 欧美亚洲在线视频| 99精品国产福利在线观看免费| 国产区二精品视| 欧美日韩一区二区三区| 久久久久久久久一区二区| 这里只有精品丝袜| 1024亚洲| 国产亚洲欧美激情| 国产精品av久久久久久麻豆网| 裸体女人亚洲精品一区| 欧美亚洲一区二区在线| 日韩一区二区免费看| 在线观看91精品国产麻豆| 国产精品一区毛片| 欧美日韩免费在线观看| 免费试看一区| 久久麻豆一区二区| 欧美一区网站| 性伦欧美刺激片在线观看| 妖精成人www高清在线观看| 亚洲经典在线看| 伊人精品成人久久综合软件| 国产一级揄自揄精品视频| 欧美视频在线观看 亚洲欧| 欧美高清在线视频| 蜜桃av噜噜一区| 久久久青草婷婷精品综合日韩 | 欧美在线视频一区二区| 亚洲一区二区三区四区五区黄| 日韩一区二区精品葵司在线| 99国产精品私拍| 一区二区激情小说| 一本到12不卡视频在线dvd| 99国产精品久久久久久久| 99视频日韩| 一区二区日韩精品| 亚洲男女自偷自拍| 午夜久久一区| 久久久.com| 欧美激情一区二区三区全黄| 欧美日韩不卡合集视频| 欧美性天天影院| 国产欧美69| 亚洲国产经典视频| 一本久道久久久| 午夜在线不卡| 久久夜色精品| 欧美片在线播放| 国产精品一二一区| 影音先锋国产精品| 日韩视频精品在线观看| 亚洲在线一区二区| 久久久精品视频成人| 免费看的黄色欧美网站| 欧美无砖砖区免费| 国内精品伊人久久久久av一坑| 亚洲欧洲美洲综合色网| 亚洲在线网站| 免费毛片一区二区三区久久久| 欧美日韩美女在线| 国产一区二区日韩精品欧美精品| 亚洲人精品午夜在线观看| 亚洲一区在线看| 欧美福利小视频|