No Country for Old Men

link: http://rws.xoba.com/newindex/ncfom.html

Mõned mõtted praeguse olukorra kohta Arvutilingvistika Olümpiaad

Richard Sproat

juuni 2009

On kõige raskem asi on pioneer ei ole teerajaja. See on paigaldamise kord piiri ei ole enam piiri, kuid osa metropoli. Mõned meist, kes on teinud arvutilingvistika lingvistika alates 1980. aastatest, kui paljud alad olid hõredalt asustatud, reisi konverentsi nagu NAACL praegu tundub nagu reis suur linn.

Nii et sa ei saa mind valesti, (vaikimisi), väites, olla pioneer, ma ei tegele enesekindlus: üks saab olla pioneer, ilma Daniel Boone. Seal oli tuhandeid pioneerid American West, kellest enamik ei ole meil kunagi kuulnud. Ma väita, et üks nendest. Nõue ei ole ilma põhjendus: kui ma alustasin tööd Hiina sõna segmenteerimine tagasi hilistel 80-ndatel ei olnud palju enne tööd. Samalaadselt, kui ma töötasin arvutilingvistika morfoloogia 1990ndate alguses, seal oli muidugi juba paar aastakümmet enne töö, kuid välja oli veel hõredalt asustatud. Kui ma töötasin piiratud-riigi meetodid teksti normaliseerida koos teiste kolleegidega at&T, mul oli üks seotud inimesi surudes kasutamine piiratud-statery väljaspool oma suhteliselt piiratud enne kasutamist sellistes valdkondades nagu morfoloogia. Mäletan, et olen öelnud ajal mõned NLP inimeste juures suurte tarkvara firma Redmond, Washington ala, mis piiratud-riigi meetodid olid passé, ja tuli välja suri 1970. Aeg on näidanud, et neid saaks hämmastavalt valesti. Ja rohkem punkti, on käesoleva arutelu, ma mäletan, varase ACL programmi komitee koosolek Rochester 1993. aastal, küsimus on, et kogu komitee sobib ring ühe suure laua. Selgelt, mida kunagi oli peamiselt metsamaa, nüüd on valglinnastumine.

Minu vahetut motivatsiooni kirjutamiseks selle lühikese essee puudutab konkreetselt kommentaare sain paar ACL/EMNLP avaldused, samuti minu viimaste käimist NAACL Boulder. Seda võib võtta kui võimalust lihtsalt vent põrn, kuid ma loodan, et see võetakse üle, et: sest ma arvan, et see ütleb midagi, kui põld on, kuhu ta võib-olla läheb, ja kas see on nii hea idee.

Paberid olid kaasatud kaks.

Üks oli ühe-kirjutas raamatus, et kavandatav tehnika tegelevad keerulise probleemi tekst normaliseerida, nimelt laiendamine number-stringid arvesse number nimed vene keeles. Tehnika seotud, kasutades piiratud-riigi grammatika, et overgenerate kandidaat seoste vahel kohaline stringid ja mitmed nimed, kaevandus-web tegeliku kehtiv, number, nimi väljendeid, siis kasutades tulemus koolitada n-gramm keel mudel, ja paar discriminative mudelid. Nende jaoks, kes hoolivad, (EMNLP versioon) raamatus on siin.

Teine oli lühike paber ACL, kirjutatud koos bakalaureuse-ja komplekt üliõpilastele, avalik toolkit, mis on välja töötatud osana Johns Hopkinsi CSLU suvel workshop teostamiseks on transkriptsioonis. Taas, neile, kes hoolivad, paber on siin.

Kommentaare ma sain ACL esitamise esimeses raamatus olid erinevad, kuid paar stick out minu meelest pigem ütlen riigi valdkonnas. Üks kommentaar oli, et nii palju kui ülevaataja ei näe, probleem ainult juhul tekkis keelte nagu vene ja võib-olla teisi Slaavi keeli. Nii et mis mõtet on siin? Kui nähtus esineb ainult ühes keeles pere, ükskõik, kui keeruline see on, see ei ole huvitav? Isegi kui see on tõsi, et Slaavi keeled on ainsad keeled näitus morfoloogiliste keerukus leida vene number nimed, teeb see vähem oluline? Sõna segmenteerimine on ainult probleem keelte seas kaasaegsete keelte, Hiina, Jaapani, Tai, paar keelte Lõuna-Aasia – mis kasutavad kirjalikult süsteemid, mis ei märgi sõna piirid: kuid see on kudenud väike suvila tööstuse, ja (seni) nelja rahvusvahelise bakeoffs toetatud SIGHAN. Ma kahtlustan, et tegelik probleem on siin selles, et number-nimi laienemist peetakse sageli (kui see on vaadatud kõik), nagu oleks triviaalne probleem, ja seega lihtsalt ei ole üks „karistada“ probleemide valdkonnas.

Teine kommentaar (erinevad ülevaataja) oli isegi rohkem murettekitav: niipalju kui see ülevaataja ei näe, probleem ainult tekkis text-to-speech synthesis; mida muud käesoleva töö oli seal? Jälle isegi siis, kui see oleks tõsi (vähemalt taotluse teksti normaliseerida kõnetuvastuseks süsteemid näitavad, et see ei ole tõsi), millist kommentaar see on? Kas te kujutate ette, keegi, väites, et eelkõige tehnika on ainult kasulik MT? See ei juhtuks, sest kui seal oli tehnika, kelle ainus selge taotlus olid MT, keegi ei teeks, et vastuväide, sest MT on (nüüd) peetakse üheks peamiseks teadusuuringute valdkondades valdkonnas.
Nii ma püüdsin lahendada kommentaarid, mis võib käsitleda, ja uuesti, et EMNLP, ja muidugi ma sain erinevaid vastuseid. Üks, kes pulgad minu meelest, et algul väitis, et taotluse discriminative meetodid olid naiivsed mõned põhjused,, üks on see, et mudelid olid selgelt overtrained puudumise tõttu piisava väljaõppe näiteid; asjaolu, et mõned koolituse komplekti oli miljoneid näiteid (märgitud paber) arvatavasti lihtsalt pääsenud, kui ülevaataja tähelepanu, kuid tegelik point, et ülevaataja tahtis teha oli, et discriminative valitud meetod (perceptrons – tegelikult lihtsalt üks meetod) oli vale meetod, ja et midagi nagu max varu klassifikatsioonis peaks olema kasutatud. Võib-olla, kuid seal on huvitav alltekst siin, üks, mis ma olen näinud, nimelt see tähendab, et lihtne masin õppe meetod, mis ei toimi päris nii hästi, tuleks asendada selline ja selline meetod, mis täidab massiliselt parem. Kui operant perspektiivis on siin „massiliselt“: milliseid tõendeid on selle kohta, et üks peaks seda ootavad? Kui tihti ei vaheta ML meetodid ülesanne (hoides funktsioone pidevalt, muidugi) tulemusena tohutu parandamise õigsust? Parandamine, kindlasti? Statistiliselt olulist paranemist isegi? Kuid tohutu < olukorra parandamiseks? Muidugi, mõnikord juhtub. Aga kui tihti? On see enamus juhtudel nii, et enne ootus on, et sagedamini kui ei, lüliti ML meetodid toovad peaaegu kategooriliselt erinevad tulemused? Ma kahtlen selles. Kuid see tähendab sageli alltekst kommentaare selline. Ma ei ole kindel, allikas see kaudne usk (kaugemale oodata „ma tean paremini kui sina“ suhtumine nii levinud akadeemilistes ringkondades). Aga ma arvan, et see vähemalt on seotud üldiselt jõusuhete tenor valdkonnas, punkt, et mis me tagasi alla.

Teise lühike ACL esitamine, tagasiside oli mõistatuslik erineval viisil. Tegelikult, enamasti arvustajate üsna meeldis. Seal oli põhjendatud kaebust, et raamat oli õhuke kohta mõned andmed – otsene tulemus 4-lehekülje piiri. Kuid tervikuna ei ole keegi kurtnud sisu – välja arvatud üks ülevaataja, et on, kes leidsid, et see oli „tööriistad“ raamatus, ning see ei tekita mingit romaani teadus. Noh, eee, jah: see oli tõepoolest vahendid paber, ja see ei olnud vedaja esitada romaan teadus. Aga mis on valesti? Kas ei kohas ACL sellised paberid? Kui paberid ressursid on avaldatud (kas konverentsid, või ajakirjad), sageli on nad lõpuks on kõige viidatud paberid valdkonnas: kaalub raamatu, milles kirjeldatakse Penn Treebank. Kuid veel punkt, eesmärk ei ole konverentsid, et hoida kogukonda kursis praeguse tehnika, mis kindlasti sisaldab ressursse, samuti uute teoreetiliste läbimurdeid?

Mis toob mind minu hinnang praeguse valdkonnas, mida toetab ka minu poolt küll jaded hiljutist NAACL konverents. Nimelt, et valdkonnas on üle suures arvesse rühm spetsialiste, kes on rohkem huvitatud tutistamine tehnikat, kui on probleeme, et nad on kohaldatud; kes on palju rohkem muljet tark uusi ML lähenemisviisi, et vana probleem, kui rakendus tuntud tehnikat, et uus probleem. Minu mulje noorema põlvkonna NAACL osalejatele on, et enamik, võib-olla isegi valdav enamus neist on consummately koolitatud arvutilingvistika õpe meetodid, ja on täiesti peal uusimaid tehnikaid, võimalik arutada sisuliselt ühe või teise nende juures tilk mütsi, aga palju rohkem huvitatud nendes küsimustes kui tegelikud probleemid, millele nad on lisatud.

Mitte, et vana ACL oli parem: seal oli palju kasu pühkimine ära kõik need väsitav paberid parsing, et kavandatav uus parsing algoritme, et keegi polnud vaevunud skaala tööd rohkem kui paar lauset. Kuid üleminek palad uues valdkonnas arvutilingvistika keeleteadus, meil on kindlasti liiga kaugele läinud teises suunas. Seal peaks olema ruumi paberid, et uurida uusi probleeme tuttav tehnika. Seal peaks olema ruumi paberid, mis annavad kasulikke tööriistu, et lihtsalt rakendada meetodeid, mis on juba teada. Väli tohiks olla nii monolithically keskendunud nutikas tehnika areng.

Vahepeal, võib-olla on aeg mõned meist, kes on olnud juba mõnda aega, et edasi minna, uusi territooriume.

Lisand: jaanuar 2010

Kapriis ma uuesti vene arvu, nimed paberile, et NAACL 2010: ma arvasin, et ma tahaks minna kolm kolme. Ma ei olnud pettunud: paber lükati tagasi, kuna see oli ACL ja EMNLP. Et olla õiglane kommentaarid olid vähem veider kui mõned neist on eelmise ringi. Kuid üks arvustaja ei leia probleem, mul oli suunatud „äärealadel“.

Ma arvan, et see on päris hea kokkuvõte olukord: töö on „perifeeria“ huvide valdkonnas ja üldisemalt ilmselt see ei ole huvitav ega uuenduslik enam. Oh hästi.

Uus lisand: lõpuks sain aktsepteeritud SLT 2010. Jess!